OpenAI最强竞对Claude再次出牌

作者： 2024年10月26日直播浏览

出品｜虎嗅科技组

｜余杨

｜苗正卿

头图｜视觉中国

10月22日，由Anthropic开发的Claude 3.5迎来重磅升级，发布了Claude 3.5 Haiku 和 Claude 3.5 Sonnet 。

Claude模型也被称为“十四行诗”（Sonnet），Anthropic公司在为其模型命名时，借鉴了文学艺术作品中的术语，其中包括“俳句”（Haiku）、“十四行诗”（Sonnet）和“杰作”（Opus），这些名称不仅代表了模型的不同版本，也反映了它们在功能和性能上的特点。

Claude 3.5 Sonnet 有着更强的编程能力，全新功能的computer use（计算机使用），支持像人类一样操作计算机，可以遵循用户的命令在计算机屏幕上移动光标，点击相关位置，并通过虚拟键盘输入信息，模拟人们与自己计算机的交互方式。

目前，Claude 3.5 Sonnet 已投入使用。

Claude系列大语言模型，一直被广泛认为是OpenAI的ChatGPT和谷歌的Gemini的主要竞争对手。 Anthropic在X中发布了模型基准测试结果，与GPT和Gemini在多个领域进行横向对比。

这些领域包括研究生水平的推理能力（GPQA Diamond）、本科生水平的知识掌握（MMLUPro）、代码编写能力（Code HumanEval）、数学问题解决能力（MATH）、视觉问答能力（MMMU）以及代理编码（SWE-bench Verified）和代理工具使用（TAU-bench）。

在研究生水平推理测试（GPQA Diamond）中，Claude 3.5 Sonnet以65.0%的准确率拔得头筹， Claude 3.5 Haiku则以41.6%的准确率则稍显逊色。而Gemini 1.5 Pro 的准确率为59.1%，居于第二。在本科生水平知识测试（MMLUPro）中，Claude 3.5 Sonnet再次以78.0%的准确率领先，而Gemini 1.5 Pro 则以75.8%的准确率紧随其后。

在此次主打的代码编写能力测试（Code HumanEval）中，Claude 3.5 Sonnet以93.7%的准确率取得了最佳成绩，GPT-4o系列模型在这一测试中也展现了不错的性能，准确率为90.2%和87.2%。

虽然在数学问题解决测试（MATH）中，Claude 3.5系列稍显逊色，Gemini 1.5 Pro 仍然碾压全场，但对于视觉问答测试（MMMU）和代理编码测试（SWE-bench Verified），Claude 3.5 Sonnet和Claude 3.5 Haiku仍有着不俗的表现。

而TO B的代理工具使用测试（TAU-bench），则直接关系到大模型的应用能力，此次主要测试了零售和航空领域。 Claude 3.5 Sonnet在零售和航空领域的准确率分别为69.2%和46.0%，而Claude 3.5 Haiku在零售和航空领域的准确率分别为51.0%和22.8%。

需要注意的是，OpenAI的o1模型家族由于其依赖于广泛的预响应计算时间，与典型模型存在根本差异，这使得性能比较变得困难，因此在本次评估中被排除在外。

这可能不够具像化。

Anthropic提供了一个展示，在2分钟的视频中，研究员给Claude提出了一个指令：

我的朋友要来旧金山，我想明天早上和他一起在金门大桥看日出。我们将从太平洋高地出发。你能帮我们找到一个绝佳的观赏地点，查看一下开车时间和日出时间，然后安排一个日历活动，让我们有足够的时间到达那里吗？

Claude的回应首先是，“让我搜索谷歌寻找最佳日出观赏地点”，并自行打开了Google开始搜索。

Claude以用户的居住地为出发点，在地图中check了驾驶时间，随后，Claude不仅打开了一个新的网页确认明天的日出时间，还在日历中设置了行程提醒，并附上了Notes，URL和附件。

开发者展示出Claude如何操控了自己的笔记本电脑，丝滑地完成了一个任务。

Anthropic表示， “我们并没有制作特定工具来帮助 Claude 完成单个任务，而是教它通用的计算机技能——允许它使用为人类设计的各种标准工具和软件程序。 我们构建了一个 API，使 Claude 能够感知计算机界面并与之交互。该 API 使 Claude 能够将提示翻译成计算机命令。开发人员可以使用它来自动执行重复性任务、进行测试和 QA 以及进行开放式研究”。

在其他的demo中，开发者还让Claude填写了一份来自蚂蚁设备公司的供应商请求表，需要填写的数据散布在电脑的各个角落，Claude跨应用进行了搜索，切换到CRM系统中，滚动页面，查找填表所需的所有信息，然后提交了表格。

AI操作电脑的能力代表了一种全新的人工智能开发方法，国内开发者也显示出在该领域深入的努力。

10月23日，在荣耀MagicOS 9.0发布会上，新升级的YOYO智能体也展现出 AI 手机端操作能力的类似特质，不仅帮展示者提交了咖啡订单，还填写了博物馆场馆预约信息。

一部分关注者对此满怀期待，认为这意味着工作中许多不得不做的繁琐事项，都可以交由AI 代劳了。

不过，虽然Claude已经取得了一些成绩，但我们日常使用电脑时的许多操作，如拖拽、缩放等，Claude都还无法做到。

但瑕不掩瑜，这并不妨碍我们像莎士比亚一样，将Claude的新技术比作“夏日”。

chatbot是什么?

ChatGPT是由美国人工智能研究实验室OpenAI开发的聊天机器人模型。它能够学习和理扒返解人类语言，根据聊天的上下文进行互动，协助人类完成各种任务。这款AI语言模型能够帮助撰写邮件、论文、脚本，制定商业提案，创作诗歌、故事，甚至编写代码、检查程序错误。与ChatGPT交谈时，可以直接切入主题，也可以逐步深入。对于严肃话题和解决方案，ChatGPT的回答逻辑性强、用词得体，虽然未能提出新观点，但其清晰、直观且迅速的表达方式和反应过程令人印象深刻。上线仅两个月，ChatGPT的活跃用户数量就超过了1亿。尽管ChatGPT的能力不断被人们发现，但在使用过程中也遇到了挑战。例如，它在数学方面的能力较弱，连简单的“鸡兔同笼”问题都无法正确解答。可能是考虑到这一点，ChatGPT最近进行了一次重要更新，提升了真实性历明和数学能力。更新后的ChatGPT在对话模式上具备了更好的交互体验，并且与上一代产品相比有显著提升。然而，与Google等搜索引擎相比，ChatGPT还不能完全替代搜索引擎。 ChatGPT的数据来源于训练数据库，但目前数据库只更新到2021年，可用信息有限，真实性也无法保证。从商业模式来看，ChatGPT目前采用免费模式。据OpenAI首肢此告席执行官Sam Altman透露，每次聊天的成本约为几美分，其中一部分成本来自Azure云服务。未来，在持续优化成本的同时，OpenAI可能会考虑通过收费获利，预计的收费模式包括订阅制、按条收费等。随着ChatGPT的迅速走红，其竞争对手也不断涌现，包括Anthropic公司的Claude、DeepMind公司的Sparrow、谷歌公司的LaMDA以及Character AI等，这个领域的竞争将变得越来越激烈。

chatGPT是什么意思？

ChatGPT是是由人工智能研究实验室OpenAI在2022年11月30日发布的全新聊天机器人模型，一款人工智能技术驱动的自然语言处理工具。它能够通过学习和理解人类的语言宽拦来进行对话，不仅上知天文下知地理，知识渊博，还铅租能根据聊天的上下文进行互慎激胡动，真正像人类一样来聊天交流，但ChatGPT不单是聊天机器人的简单，甚至能完成撰写邮件、视频脚本、文案、翻译、代码等任务。同时也引起无数网友沉迷与ChatGPT聊天，成为大家讨论的火爆话题。

绅士福利·你的AI女友上线了！Docker部署角色扮演AI『SillyTavern 酒馆』

哈喽各位绅士们，我是Stark-C~今天为大家分享的这个项目可谓是大大的福利，因为我将给在座的每位小伙伴都安排一位AI女友，至于为什么是一位，主要是怕多了大家的身体遭不住啊啊啊（手动狗头...）今天的这个项目的名字叫做『SillyTavern 』，如果直译过来，其实就是“愚蠢的酒馆”，所以这个项目也被国内很多用户玩家直接叫做“酒馆”。所以导致很多还没体验的小伙伴潜意识的认为它是一个搞卖酒推广的，殊不知“酒馆”其实就是各位绅士的快乐源泉~PS：提前说好，各位绅士不要想歪了，人家这可是正经“酒馆”哈~~关于SillyTavernSillyTavern其实是一个具有AI功能的交互界面项目，只不过呢，它这个交互玩的比较花，可以根据我们的需求自定义角色，并配合我们进行角色扮演，最好玩的，它的这个角色扮演还不只是文字上的，还可以语音，嘿嘿...绅士们，开心吧~算啦，也不说多了，免得被思想不纯的小伙伴体验之后没达到预期说我标题党，说点正经的~SillyTavern其实是一个TavernAI 1.2.8的一个分支，可以部署在主机（电脑&服务器）和手机上的用户交互界面，它允许您与文本生成 AI 进行交互，并与我们创建的角色进行聊天、角色扮演等。除此以外，它提供了类似 Galgame 的老婆模式、Horde SD、文本系统语音生成、世界信息（Lorebooks）、可定制的界面、自动翻译等功能，并且灶隐纤还有非携轿常多内置以及第三方扩展组件可以使用（类似于我们玩Steam游戏中的DLC），只有你想不到，没有它做不到。 SillyTavern支持非常多的人工智能服务或模型，比如说 KoboldAI/CPP, Horde, NovelAI, Ooba, OpenAI, OpenRouter, Claude, Scale 等，它在使用这些模型的时候会调用这些模型的API秘钥，也就是说，如果你想和SillyTavern愉快的玩耍，你需要提前搞定一个可以使用模型的API秘钥，如果没有，很遗憾的告诉你，你只能接着往下看我哈皮了~~~SillyTavern部署打开NAS的文件管理器，在 docker 目录中（威联通默认为Container文件夹），创建一个新文件夹【sillytavern】，然后在 sillytavern文件夹中再分别新建三个子文件夹【data】、【plugins】和【config】。然后使用SSH终端工具连接到NAS之后先启用root模式（“sudo -i ”），再输入以下Docker run多行命令（请注意，张大妈器会删隐仿掉每行命令后面的反斜杠）并回车即可：docker run \ --name=sillytavern \ -e TZ=Asia/Shanghai \ -p 8000:8000 \ -v docker/sillytavern/plugins:/home/node/app/plugins:rw \ -v docker/sillytavern/config:/home/node/app/config:rw \ -v docker/sillytavern/data:/home/node/app/data:rw \ --restart unless-stopped \ /sillytavern/sil...以上命令需要说明的地方为：等到命令行出现上图所示的“SillyTavern is listening on: 0.0.0.0:8000/ ”就说明部署没有问题。不过这个时候我们先不要着急打开容器，而是打开文件管理器中的sillytavern文件夹中的config子文件夹，它里面有一个文件，我们将这个文件下载到电脑本地。接着通过代码器（比如Visual Studio Code、Sublime Text 或 Atom）打开文件，将listen false改成 true ；在whitelist 下面加一个你那边本地网络的CIDR网段；然后是远程登录酒馆的用户名和密码，默认为：user/password，你可以根据自己的需求修改，或者默认。将修改好的文件上传到NAS中的config子文件夹并替换，最后重新启动sillytavern容器就算部署完成了。 SillyTavern体验和访问常规容器一样，浏览器【NAS本地IP:端口号】就能直接打开SillyTavern。首次打开会让我们为自己的角色设置一个名称，可以随意设置，完成后点“Save”保存即可。进来之后第一件事就是选择一个接入的模型。前面说过，接入的模型必须有一个可以使用的API秘钥。我这里正好有一个OpenAI的API秘钥，输入秘钥之后，点击下面的“连接”按钮，如果反馈为绿色的“Valid”，就说明没有问题。这个时候我们就可以设置角色了。可以看到当前版本的SillyTavern有一个预置角色可以直接使用。点击角色图标就能直接进入聊天页面。它默认显示的还是英文，不过我们在聊天的时候让它使用中文，它也会显示中文。可以看到虽说它用的是OpenAI模型，但它的回答是以一个虚拟的人物角色的口吻回答的。点击左右箭头，还会有不同的回答方式，白色文字部分还给它的回答加上了感情色彩，确实能让各位绅士浮想联翩~~我们还可以在最上边的状态栏选择聊天背景，官方预置的聊天背景就很多，并且都很好看，都是经典。我随意选择了一个，背景马上就换掉了。聊天的背景也更换了。不过自己的图像因为显示空洞看着挺别扭的，我们也可以通过状态栏的角色设置为自己上传一个喜欢的图像。比如我双穿了一个钢铁侠的图像，国人好看多了。我们在聊天界面点击人物图像，还能直接显示人物的卡片。当然，以上只是SillyTavern最最基本的玩法，它还有非常多的插件可以使用，可以直接点页面的插件设置按钮来管理和添加插件，同时还有很多第三方的插件包可以安装。给大家随便分享三张我在互联网上截取的别人已经制作好的第三方插件部署好的效果，还是很惊艳的~最后本篇文章中，我只是教大家怎么将SillyTavern搭建起来，并分享了它最基本的玩法。其实作为一款绅士项目，它的可玩性实在是太多了，我这里权当给大家投石问路，至于后面的路怎么走，大家还是自行研究吧~好了，以上就是今天给大家分享的内容，我是爱分享的Stark-C，如果今天的内容对你有帮助请记得收藏，顺便点点关注，咱们下期再见！谢谢大家~