Mistral对标ChatGPT全面升级le Chat，还祭出超大杯多模态模型

2024-11-20 10:32:08机器之心Pro

一觉醒来，MistralAI又发力了。

就在今天，MistralAI多模态家族迎来了第二位成员：一个名为PixtralLarge的超大杯基础模型。

这是一个基于MistralLarge2构建、124B开放权重的多模态模型，具备顶尖的图像理解能力——能够看懂文档、图表和自然图像，同时保持MistralLarge2领先的纯文本理解能力。

除了发布新模型，MistralAI还进一步升级了免费聊天机器人leChat，增加图像生成、网络搜索和交互式画布功能，全面对标ChatGPT。

所有这些功能，统统以免费测试版的形式开放。

MistralAI的每一次更新，都会让整个AI社区兴奋起来。

有人感叹：「六个月前，开源模型和闭源模型之间的差距非常大。现在，最先进的人工智能正在迅速向任何想要使用它的人开放。」

到底有多强？

接下来，让我们看看发布细节吧。

开源多模态大模型PixtralLarge

PixtralLarge可根据Mistral研究许可证(MRL)用于研究和教育用途，同时根据Mistral商业许可证用于商业目的的实验、测试和生产。

PixtralLarge前身是2024年夏季发布的MistralLarge2，以及9月份发布的首个多模态模型Pixtral12-B。关于将多模态模型扩展到1240亿参数的出发点，MistralAICEO是这么说的：「我们越来越意识到，要创造最佳的AI体验，需要共同设计模型和产品界面。Pixtral在训练时就考虑到了高影响力的前端应用，是一个很好的例子。」

PixtralLarge包括一个1230亿参数解码器和一个10亿参数视觉编码器，使其在文本和视觉数据处理方面均表现出色。

PixtralLarge上下文窗口为128K，至少可以处理30张高分辨率图像或大约一本300页的书，这相当于领先的OpenAIGPT系列模型的能力。

在性能方面，该模型在包括MathVista、DocVQA和VQAv2在内的多种基准上展现出了最先进的性能，非常适合图表解释、文档分析和图像理解等任务。

具体而言，在MathVista基准上，PixtralLarge实现了69.4%的准确率，优于所有其他模型。在ChartQA和DocVQA基准上，PixtralLarge超越了GPT-4o和Gemini-1.5Pro。

PixtralLarge在MM-MT-Bench上也展示了强有力的竞争力，优于Claude-3.5Sonnet（新版）、Gemini-1.5Pro和GPT-4o（最新版）。

在图像理解方面，PixtralLarge也表现优异。比如上传一份账单，询问该模型：「我买了咖啡和香肠，外加18%的小费。我该付多少钱？」

PixtralLarge会非常有条理地给出总消费金额，先是计算了咖啡和香肠的费用，2杯拿铁玛奇朵、1份香肠，然后计算18%的小费，最后给出总金额。

PixtralLarge也能准确理解并分析图表。比如对于下面的训练损失曲线图，问darkdragon模型什么时候开始出现问题。

PixtralLarge分析的也很准确：「在达到10,000step时，训练损失开始出现不稳定……随后，这种不稳定性持续存在，并在20,000step附近出现了另一个大的峰值……」

在接下来的示例中，上传一张图片，问PixtralLarge哪些公司使用MistralAI模型？

PixtralLarge也能根据图片提供的信息给出准确的结果，回答过程如下。

除了PixtralLarge，MistralAI最先进的文本模型MistralLarge也迎来了一次更新。该模型在API上以pixtral-large-latest的形式提供，在HuggingFace上以MistralLarge24.11的形式提供。

MistralLarge24.11将首先在GoogleCloud和MicrosoftAzure上推出，预计一周内即可使用。

模型和权重下载地址：https://huggingface.co/mistralai/Pixtral-Large-Instruct-2411/tree/main试用地址：https://chat.mistral.ai/chat

对标ChatGPT大升级

leChat已经强得可怕

PixtralLarge的发布，也让leChat的能力上升到了一个新的高度。

leChat现在可以处理大型、复杂的PDF文档和图像，比如一篇理论文献的所有内容——图形、表格、图表、文本、公式、方程式。

下面的例子展示了爱因斯坦、波多尔西和罗森于1935年撰写的著名量子纠缠论文的信息提取、总结和语义理解。

视频链接：https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650943579&idx=2&sn=a6f5715b7bfa1f38c178e31547bbb34a&chksm=84e7f425b3907d3319a8b2a96dee06329dfa09c73555aa715b768c582ee5fb44f59154465acf&token=933530197&lang=zh_CN#rd

此外还有两项新能力登陆leChat：

首先是实时的网络搜索。这是一项关于生产力的升级，MistralAI表示，leChat的大部分用户来自学生和专业人士，而这些用户非常看重其在学习、研究和工作中的作用。

下面是一位营销类专业人士使用leChat来评估医疗保健人工智能市场：

然后是新的Canvas界面。当用户需要暂时离开对话进行构思时，它会弹出到leChat窗口中，随后用户可以和MistralLLM合作完成共享输出。

从此，我们和聊天机器人的互动不再局限于双向对话。借助LLM强大的推理能力，Canvas可以用来创建文档、演示文稿、代码、模型等，亮点在于「就地修改」内容，无需重新生成回复、版本控制草稿并预览设计。

比如在下方演示中，是一个产品团队为准备推出Canvas而创建产品指标仪表板的反应模型的视频。

MistralAI与SD作者团队成立的BlackForestLabs也达成了合作，因此leChat拥有了高质量的图像生成能力。

最后，如果你想马上体验到MistralAI最新放送的搜索、PDF上传、编码、图像生成等所有功能，请访问：http://chat.mistral.ai/

https://venturebeat.com/games/xsolla-announces-certified-parental-controls-a-boom-in-web-shop-revenue-and-expansion-in-se-asia/

APP下载