发布名叫ComputerUse的新功能,可以让Claude像人一样使用计算机!
话不多说,直接来看例子:
在这个填写表格的例子中,由于涉及到的数据分散在了电脑不同的位置,如果人工挨个寻找,那叫一个费时费力。
现在,你只需要跟Claude说一声即可,然后它就会先“看”屏幕,发现所需要的数据不在这份表格里,马上掉头去CRM搜索所需数据。
找到匹配的信息之后,Claude就会自己滚动网页,最后把对应的数据填写到相应的表格栏中。
而整个演示的过程,无需人类任何的参与!
再如跟Claude说一声想看金门大桥的日出,它就会在网页搜索信息、地图中找最佳位置、规划出行路线,最后把出行的方案塞进你的日历里:
以及,编程也不在话下!
在下面这个例子中,同样只需要跟Claude说一声“做一个90年代风格的个人网站”,它就会先在电脑网页中打开另一个自己——Claude的网站。
然后让网页版Claude就会唰唰唰地生成代码,并在网页上运行效果。
当然我们还可以继续要求Claude把代码下载到本地,通过VSCode来本地运行,期间诸如发现没有安装Python等情况,Claude都会自行找到错误并解决,直至完成任务!
不得不说,Claude这次发布的ComputerUse功能,直接把电脑变成“自动驾驶”模式了。
网友们在惊呼“Amazing”的同时,也表示:
新一轮的竞赛开始了。
而这个新竞赛,就不再仅限于AI的对话和生成能力,更强调的应当是执行和操作了。
Claude3.5也迎来升级
在发布ComputerUse功能的同时,Anthropic一道还选宣布:
升级Claude3.5Sonnet,推出新模型Claude3.5Haiku。
首先,从Anthropic官方亮出的评分中不难看出,升级后的Claude3.5Sonnet在性能上可以说是有了大幅的提升。
尤其是在编程方面,将SWE-benchVerified的性能从33.4%提高到49.0%。
其得分高于所有公开可用的模型,包括OpenAIo1-preview等推理模型和专为编程设计的专用系统。
新版Claude3.5Sonnet还将TAU-bench(一种代理工具使用任务)的性能从零售领域的62.6%提高到69.2%,在更具挑战性的航空公司领域从36.0%提高到46.0%。
其次,是这次新推出的Claude3.5Haiku,用官方的话来说就是:
这是我们最快的下一代型号。
在与Claude3Haiku相同的成本和速度下,Claude3.5Haiku在每项技能集上都有所提升,在许多智能基准测试中甚至超过了上一代最大的型号Claude3Opus。
同样的,Claude3.5Haiku也特别擅长编程,在SWE-benchVerified中的得分为40.6%,优于许多使用公开可用的最先进模型的代理,包括原始的Claude3.5Sonnet和GPT-4o。
目前来看,Claude3.5Sonnet已经面向所有用户开放,而且价格和速度没有变化。
至于Claude3.5Haiku则将在本月底,通过API、AmazonBedrock和GoogleCloud的VertexAI提供(先开放纯文本模型)。
OneMoreThing
在Anthropic搞了这波大的同时,StabilityAI也有新动作——
发布StableDiffusion3.5,迄今最强模型!
据了解,StableDiffusion3.5有三个不同大小的版本——Large、LargeTurbo和Medium,可以在消费类硬件上运行。
目前可以从HuggingFace下载StableDiffusion3.5Large和StableDiffusion3.5LargeTurbo,并在GitHub上下载推理代码。
StableDiffusion3.5Medium则将于10月29日发布。
从官方晒出的评分和实际效果来看,StableDiffusion3.5也取得了不错的效果。
最后,不得不说,这一晚上,AI真够刺激的。
参考链接:
—完—
评选征集中
「2024人工智能年度评选」
量子位2024人工智能年度评选已开启报名通道,评选从企业、人物、产品三大维度设立了5类奖项。
欢迎扫码报名评选!评选结果将于12月公布,期待与数百万从业者共同见证荣誉时刻。