尊龙凯时-人生就是博!z6com|人族无敌3|五大AI聊天机器人盲测!ChatG

发布时间:2024-08-31 23:45:39 文章来源:尊龙凯时 -人生就是博!厨卫科技有限公司

  尊龙凯时人生就是博首页◈★✿,厨房装修◈★✿,尊龙凯时人生就是博◈★✿!尊龙凯时人生就是博z6com◈★✿,尊龙凯时官网入口卫浴装修◈★✿。尊龙凯时人生就是博·(中国)官网◈★✿!本次测试的侧重点为AI聊天机器人解决实际问题和完成日常任务的能力◈★✿,反映了它们在真实场景中的表现◈★✿。《华尔街日报》的测试人员设计了一系列提示词来测试流行的使用案例◈★✿,包括代码能力测试◈★✿、健康咨询和理财问题◈★✿。评判的标准包括准确性◈★✿、有用性和整体质量◈★✿。《华尔街日报》邀请了相关领域的专家以盲测的形式开展测试◈★✿。接下来就让我们来看看这些AI聊天机器人在不同问题上的具体表现吧◈★✿。

  为了使用更全面的功能◈★✿,《华尔街日报》在测试中使用了20美元的付费版◈★✿,包括最新发布的OpenAI ChatGPT GPT-4o模型和谷歌Gemini 1.5 Pro◈★✿。

  美国大模型独角兽Anthropic是OpenAI的一大劲敌◈★✿,此次测试中◈★✿,它开发的聊天机器人Claude在写作类任务上的表现尤为突出◈★✿;集成了OpenAI技术的微软AI助手Copilot则在创意写作和总结方面展现出优势◈★✿。

  美国AI搜索独角兽Perplexity AI打造的Perplexity尤其令人惊喜◈★✿。它在总结◈★✿、代码和时事类问题上取得最佳表现◈★✿,在大部分单项测试上都取得前三名的成绩◈★✿。

  值得一提的是◈★✿,这是英伟达创始人兼CEO黄仁勋最常用的AI工具◈★✿。凭借在生成式AI搜索产品上的创新◈★✿,Perplexity AI喜提“谷歌杀手”称号◈★✿,今年月活用户数突破1000万大关◈★✿。根据数据研究分析平台Pitchbook尊龙凯时-人生就是博!z6com◈★✿,Perplexity AI团队规模不到50人◈★✿。

  测试中◈★✿,更新后的ChatGPT意外地未能在测试中拔得头筹◈★✿,反倒是更为小众的的Perplexity在九项测试中的三项上排名第一◈★✿,并获得本次测试的冠军◈★✿。Anthropic的Claude在部分问题上表现不错◈★✿,但由于无法访问网页且响应速度较慢◈★✿,最终名列第四◈★✿。

  来自谷歌的Gemini和来自微软的Copilot在本次测试中表现不佳◈★✿,分列第三和第五◈★✿。微软Copilot更是在五项测试中垫底◈★✿,多次忽略提示词中的关键信息◈★✿,是本次测试中表现最差的AI聊天机器人◈★✿。

  AI聊天机器人提供的错误健康建议可能会危害用户的健康◈★✿。测试人员共提出了五个问题◈★✿,分别涉及怀孕◈★✿、减肥◈★✿、抑郁以及慢性和突发症状◈★✿。很多答案听起来都差不多◈★✿。这一部分的评委是《华尔街日报》健康专栏作家Sumathi Reddy◈★✿,她对答案的完整性尊龙凯时-人生就是博!z6com◈★✿、准确性和细节问题进行了考察◈★✿。

  例如人族无敌3◈★✿,当问到怀孕的最佳年龄时◈★✿,Gemini给出了一个简短而笼统的建议◈★✿,称“怀孕的最佳时机◈★✿,是你自己觉得有信心并准备好养育孩子的时候”◈★✿。而Perplexity的回答则更深入◈★✿,甚至提出了伴侣关系和经济稳定性等因素◈★✿。尽管如此◈★✿,Gemini还是对其他问题做出了高质量的回答人族无敌3◈★✿,最终仅次于该类别的冠军ChatGPT◈★✿。ChatGPT的回答在最近的GPT-4o更新后有所改进◈★✿。

  在这项测试中◈★✿,测试人员向AI聊天机器人提出了三个问题◈★✿,分别是利率◈★✿、退休储蓄和遗产继承◈★✿。《华尔街日报》的个人理财编辑Jeremy Olshan提出了这些问题◈★✿,并根据建议的清晰度◈★✿、全面性和实用性进行了评估◈★✿。

  在这方面◈★✿,ChatGPT和Copilot表现欠佳◈★✿。Claude对选择罗斯个人退休账户(Roth IRA◈★✿,一种增值免税的退休账户)还是传统个人退休账户的争论给出了最佳答案◈★✿。而Perplexity则对高收益储蓄账户与定期存款做出了最好的权衡◈★✿。类别冠军Gemini对何时从继承的100万美元个人退休账户中提取资金的问题给出了最佳回答◈★✿。Gemini在回答中强调了在没有专业指导的情况下不要匆忙提取资金◈★✿。

  AI有望在厨房里为人类提供帮助◈★✿。它能让冰箱和储藏室的混乱场面变得井井有条◈★✿。《华尔街日报》的个人技术产品编辑Wilson Rothman是一位狂热的烹饪爱好者◈★✿,他向AI聊天机器人抛出了一组随机食材◈★✿,看看它们能做出什么花样◈★✿。该类别的冠军ChatGPT提供了一份既有创意又切合实际的菜单(芝士猪肉馅烤苹果配羽衣甘蓝沙拉和巧克力酥饼)尊龙凯时-人生就是博!z6com◈★✿。Perplexity提供了详细的烹饪步骤和巧妙的菜单◈★✿,给测试人员留下了深刻印象◈★✿。

  Gemini一举夺魁尊龙凯时-人生就是博!z6com◈★✿,甚至还推荐了一些额外的配料◈★✿,比如不含乳制品的蛋糕淋面◈★✿。Copilot加入了提示词中明确要求不应包含的鸡蛋和黄油◈★✿,因此在这项测试中落败◈★✿。

  在职场写作中◈★✿,语气和细节很重要◈★✿。在向老板提出加薪的要求时可不能油嘴滑舌◈★✿。撰写招聘启事时◈★✿,也需要列出要点来吸引潜在的应聘者◈★✿。测试中◈★✿,《华尔街日报》告诉AI聊天机器人◈★✿,他们要招聘一名提示工程师尊龙凯时-人生就是博!z6com◈★✿,与《华尔街日报》的个人技术产品团队合作◈★✿。

  Perplexity撰写的招聘通知将新闻行业的要求和对AI的了解完美地结合在了一起◈★✿。评委编辑Shara Tibken指出◈★✿,Copilot的问题在于它根本没有提到提示工程◈★✿。Perplexity◈★✿、Gemini和Claude之间的竞争十分激烈◈★✿,Claude最终凭借适合职场风格的新生儿通告(birth announcement)取胜人族无敌3◈★✿。

  本次测试中最大的意外◈★✿,当属职场写作能力和创意写作能力之间的差异◈★✿。Copilot的职场写作能力倒数第一◈★✿,但在创意写作方面却是最有趣◈★✿、最聪明的◈★✿。

  测试中要求AI聊天机器人写一段以布偶为主角的婚礼祝酒词◈★✿,还要虚构一场特朗普和拜登之间的街头斗殴◈★✿。有了Copilot◈★✿,笑话层出不穷◈★✿。Claude排名第二◈★✿,它对两位总统候选人都进行了巧妙的讽刺◈★✿。

  Perplexity在这项测试中罕见地出现事物◈★✿。它错误地引用了2011年的音乐剧《布偶团》中的一句歌词◈★✿。

  对于刚刚接触AI聊天机器人的用户来说人族无敌3◈★✿,总结功能可能是最适合的尝试◈★✿。总结功能用处很大尊龙凯时-人生就是博!z6com◈★✿,而且不太可能造成不可预见的错误◈★✿。因为本次测试中使用的是付费服务◈★✿,所以测试人员可以上传较大的文本◈★✿、PDF文档和网页◈★✿。

  大多数情况下◈★✿,即便是高级版Claude账户也无法处理网页链接◈★✿。Anthropic公司的产品经理Scott White说◈★✿,“我们的团队正在提升Claude的运行速度◈★✿,扩大它的知识库◈★✿,完善它理解各种内容并与之交互的能力”◈★✿。

  名人的维基百科页面可能很冗长◈★✿,因此测试人员要求AI聊天机器人提供披头士乐队成员Paul McCartney的维基百科页面摘要人族无敌3◈★✿。有些AI聊天机器人提供了简短的介绍◈★✿,其中包含了披头士乐队的一些常见信息◈★✿。Copilot的回答采用了提纲的形式◈★✿,并包含了一些鲜为人知的趣事人族无敌3◈★✿。

  该类别的冠军得主Perplexity一直都能很好地概括事物◈★✿,它甚至快速阅读了一个YouTube视频的字幕◈★✿。

  这部分测试比看上去要复杂一些◈★✿,因为并非所有AI聊天机器人都能访问网络◈★✿。测试人员询问了今年夏天的音乐会阵容◈★✿,以及即将举行的总统大选的当前形势◈★✿。

  凭借全面的推理和可靠的来源◈★✿,Perplexity稳居榜首◈★✿。ChatGPT在第一次测试时表现不佳◈★✿,但GPT-4o的升级使它跃居第二◈★✿。Gemini拒绝回答测试人员关于总统选举的问题◈★✿。

  测试人员还对AI聊天机器人的代码技能和速度进行了评估◈★✿。在代码技能方面◈★✿,测试人员请来了《华尔街日报》数据记者Brian Whitton◈★✿,他提供了三个令人头疼的问题◈★✿,涉及JavaScript函数◈★✿、网站样式和网络应用程序◈★✿。根据Whitton的盲评◈★✿,所有机器人在代码方面的表现都相当不错◈★✿。最终Perplexity成功胜出◈★✿,ChatGPT和Gemini紧随其后◈★✿。

  为进行速度测试◈★✿,测试人员对之前的几个测试问题进行了计时◈★✿,并加入了另一个问题◈★✿,“用五句话解释爱因斯坦的相对论”◈★✿。测试结果显示◈★✿,各个AI聊天机器人的答案本身各不相同◈★✿。就响应时间而言◈★✿,采用GPT-4o的ChatGPT仅用时5.8秒◈★✿,是最快的AI聊天机器人◈★✿。在整个测试过程中◈★✿,Claude和Perplexity都比其他三个AI聊天机器人慢得多◈★✿。

  本次测试显示◈★✿,每个AI聊天机器人都有自己独特的优点和缺点◈★✿,因此都值得探索◈★✿。测试人员没有看到明显的错误和幻觉◈★✿。没有任何AI聊天机器人在测试过程中犯下意料之外的严重错误◈★✿,或者胡编乱造◈★✿。它们大多提供了有用的答案◈★✿,也避免了争议◈★✿。这表明目前大部分AI聊天机器人都能提供及格线以上的表现◈★✿,整体能力有所提升尊龙凯时-人生就是博!z6com◈★✿。

  让人意外的是◈★✿,尽管ChatGPT进行了大规模的更新◈★✿,名气也很大◈★✿,但它并没有在本次测试中领跑◈★✿。相反◈★✿,知名度较低的Perplexity成为了本次测试的冠军◈★✿。Perplexity AI的首席商务官Dmitry Shevelenko说◈★✿,“我们针对回答的简洁性进行了优化◈★✿,这让模型能够辨别出回答中最关键的信息”◈★✿。

  《华尔街日报》也指出◈★✿,现在Copilot和Gemini的表现不尽如人意◈★✿。但是在未来◈★✿,微软和谷歌这两家大型科技公司的AI聊天机器人可能会占据优势◈★✿。谷歌和微软都拒绝对此发表评论◈★✿。但最近微软告诉《华尔街日报》◈★✿,GPT-4o将很快被集成到Copilot中◈★✿,这可能会提高Copilot的性能◈★✿。

  Perplexity在本次测试中的胜利◈★✿,也证明了坐拥大量算力本身并不能保证企业可以开发出表现最佳的AI聊天机器人产品◈★✿,在特定方向上的优化也能产生出其不意的效果◈★✿。

COPYRIGHT © 2021 尊龙凯时 -人生就是博!卫浴 ALL RIGHTS RESERVED 尊龙凯时 -人生就是博! 尊龙凯时