人工智能刚刚迎来了一位新玩家——而且它是完全开源的。Aria 是由总部位于东京的 Rhymes AI 开发的多模式 LLM,能够在单一架构内处理文本、代码、图像和视频。
不过,吸引你注意的不仅仅是它的多功能性,还有它的效率。它不像多式联运的同类产品那样庞大,这意味着它更节能,也更节省硬件。
Rhymes AI 通过采用混合专家 (MoE) 框架实现了这一目标。这种架构类似于拥有一支由专业迷你专家组成的团队,每个专家都经过培训,能够在特定领域或任务上表现出色。
当向模型输入新数据时,只会激活相关专家(或部分专家),而不是使用整个模型。这样,只运行模型的特定部分意味着它将比运行一个试图处理所有事情的万事通实体更轻松。
这使得 Aria 更加高效,因为与为每个任务激活所有参数的传统模型不同,Aria 每个标记仅选择性地使用 249 亿个参数中的 35 亿个,从而减少了计算负荷并提高了特定任务的性能。
它还具有更好的可扩展性,因为可以添加新的专家来处理专门的任务而不会导致系统超载。
值得注意的是,Aria 是开源 Arena 中第一个多模态 MoE。目前已经有一些 MoE(如 Mixtral-8x7B)和一些多模态 LLM(如 Pixtral),但 Aria 是唯一能够结合这两种架构的模型。
Aria 在综合基准测试中击败竞争对手
在基准测试中,Aria 击败了一些开源重量级产品,如 Pixtral 12B 和 Llama 3.2-11B。
更令人惊讶的是,它与 GPT-4o、Gemini-1 Pro 或 Claude 3.5 Sonnet 等专有模型展开了激烈竞争,展现出与 OpenAI 创意相当的多模式性能。
Rhymes AI 已根据 Apache 2.0 许可发布了 Aria,允许开发人员和研究人员调整和构建该模型。
它也是对由 Meta 和 Mistral 领导的不断扩大的开源 AI 模型池的一个非常强大的补充,这些模型的性能与更受欢迎和采用的闭源模型类似。
Aria 的多功能性在各种任务中也表现出色。
在研究论文中,该团队解释了他们如何将整个财务报告输入模型,并使其能够进行准确的分析,它可以从报告中提取数据,计算利润率并提供详细的分类。
当负责天气数据可视化时,Aria 不仅提取了相关信息,还生成了 Python 代码来创建图形,并附带格式细节。
该模型的视频处理能力似乎也很有前景。在一次评估中,Aria 剖析了一段关于米开朗基罗的大卫的长达一小时的视频,识别出 19 个不同的场景,并附有开始和结束时间、标题和描述。这不是简单的关键字匹配,而是情境驱动理解的展示。
编码是 Aria 擅长的另一个领域。它可以观看视频教程、提取代码片段,甚至调试它们。在一个例子中,Aria 发现并纠正了涉及嵌套循环的代码片段中的逻辑缺陷,展示了它对编程概念的深刻理解。
测试模型
Aria 是一个强大的 253 亿参数模型,需要至少 A100 (80GB) GPU 才能以半精度运行推理,因此您无法在笔记本电脑上运行和微调它。不过,我们在 Rhyme AI 的演示页面上对其进行了测试,该页面提供了受限版本。
文本分析与处理
首先,我们测试它分析文档的能力,给它提供一篇研究论文,并要求它简单地解释一下这到底是什么。
模型非常简洁但准确。它没有产生幻觉并保持对话,显示出良好的检索能力。
它以连续的长段落显示其答复,这可能会让喜欢较短段落的用户感到疲劳。
与 ChatGPT 相比,OpenAI 的模型在提供的信息方面显示出类似的答案,但格式更加结构化,因此更易于阅读。
此外,Rhyme 的演示网站将上传限制为只有 5 页的 PDF。ChatGPT 更有能力处理超过 200 页的文档。
相比之下,Claude 3.5 Sonnet 允许小于 30MB 的文档,只要它们不超过其令牌限制。
编码和图像理解
然后,我们混合了两条指令,要求模型分析来自 CoinMarketCap 的屏幕截图,显示前 10 种代币的价格表现,然后使用代码提供一些信息。
我们的提示是:
根据过去 24 小时内的最佳表现来组织列表。
编写 Python 代码绘制每种货币每日和每周表现的条形图,并根据过去 24 小时和过去 7 天内显示的表现信息绘制比特币价格的折线图,显示其当前价格以及昨天和上周的价格。
Aria 未能根据每日表现整理代币,出于某种原因,它认为 Tron 表现良好,但实际上价格却在下跌。该图表在每日条形图旁边添加了每周表现。其条形图线也有缺陷:它没有在 X 轴上正确排列时间。
ChatGPT 更善于理解如何正确绘制时间线,但并没有真正根据代币的表现对代币进行排序。它也是 TRX 的推手,显示出积极的日常表现。
视频理解
Aria 还能够充分理解视频。我们上传了一段女性移动的短视频。视频中,女性没有说话。
我们要求模特描述当时的场景,并询问女人说了什么,试图看看模特是否产生了答案的幻觉。
Aria 能够理解这项任务、描述其中的要素,并正确地提到这位女士没有改变外貌,也没有对着镜头说话。
ChatGPT 无法理解视频,因此无法处理此提示。
创意文字
这次测试可能是最令人惊喜的。Aria 的故事比 Grok-2 或 Claude 3.5 Sonnet 提供的输出更富有想象力,而 Grok-2 和 Claude 3.5 Sonnet 一直是我们主观分析中的佼佼者。
我们的提示是:写一篇关于一个名叫 José Lanz 的人穿越时空的短篇故事,使用生动的描述性语言,并根据他的文化背景和表现类型(无论您能想到什么)改编故事。他来自 2150 年,回到了 1000 年。故事应该强调时间旅行悖论,以及试图解决过去的问题(或制造问题)以试图改变他当前的时间线是毫无意义的。未来之所以如此存在,只是因为他影响了 1000 年的事件,而这些事件必须发生才能塑造具有当前特征的 2150 年——他直到回到他的时间线才意识到这一点。
Aria 的故事讲述了来自 2150 年的穿越时空的历史学家 Jose Lanz,故事将科幻阴谋与历史和哲学元素融合在一起。故事的结局不像其他模型所讲述的那样突然,尽管它不像人类写的东西那样有创意,但它的结果类似于情节转折,而不是仓促的结局。
总体而言,Aria 呈现的故事引人入胜、连贯性强,与更强大的竞争对手相比,它在不同主题上更加全面、更具影响力。它更具沉浸感,但由于代币限制而显得仓促。对于长篇故事,Longwriter 是目前最好的模型。
您可以点击此链接阅读所有故事。
总体而言,Aria 是一个强大的竞争对手,由于其架构、开放性和可扩展性,它看起来很有前途。如果您仍想尝试或训练该模型,可以在 Hugging Face 免费获取。请记住,您至少需要 80GB 的 VRAM、强大的 GPU 或三个 RTX 4090 协同工作。它仍然是新的,因此没有量化版本(精度较低但效率更高)。
尽管存在这些硬件限制,但开源领域的此类新发展对于实现拥有完全开放的 ChatGPT 竞争对手的梦想迈出了重要一步,人们可以在家运行它并根据自己的特定需求进行改进。让我们看看他们下一步会怎么做。
由 Sebastian Sinclair 和 Josh Quittner 编辑