一觉醒来,MistralAI又发力了。
就在今天,MistralAI多模态家族迎来了第二位成员:一个名为PixtralLarge的超大杯基础模型。
这是一个基于MistralLarge2构建、124B开放权重的多模态模型,具备顶尖的图像理解能力——能够看懂文档、图表和自然图像,同时保持MistralLarge2领先的纯文本理解能力。
除了发布新模型,MistralAI还进一步升级了免费聊天机器人leChat,增加图像生成、网络搜索和交互式画布功能,全面对标ChatGPT。
所有这些功能,统统以免费测试版的形式开放。
MistralAI的每一次更新,都会让整个AI社区兴奋起来。
有人感叹:「六个月前,开源模型和闭源模型之间的差距非常大。现在,最先进的人工智能正在迅速向任何想要使用它的人开放。」
到底有多强?
接下来,让我们看看发布细节吧。
开源多模态大模型PixtralLarge
PixtralLarge可根据Mistral研究许可证(MRL)用于研究和教育用途,同时根据Mistral商业许可证用于商业目的的实验、测试和生产。
PixtralLarge前身是2024年夏季发布的MistralLarge2,以及9月份发布的首个多模态模型Pixtral12-B。关于将多模态模型扩展到1240亿参数的出发点,MistralAICEO是这么说的:「我们越来越意识到,要创造最佳的AI体验,需要共同设计模型和产品界面。Pixtral在训练时就考虑到了高影响力的前端应用,是一个很好的例子。」
PixtralLarge包括一个1230亿参数解码器和一个10亿参数视觉编码器,使其在文本和视觉数据处理方面均表现出色。
PixtralLarge上下文窗口为128K,至少可以处理30张高分辨率图像或大约一本300页的书,这相当于领先的OpenAIGPT系列模型的能力。
在性能方面,该模型在包括MathVista、DocVQA和VQAv2在内的多种基准上展现出了最先进的性能,非常适合图表解释、文档分析和图像理解等任务。
具体而言,在MathVista基准上,PixtralLarge实现了69.4%的准确率,优于所有其他模型。在ChartQA和DocVQA基准上,PixtralLarge超越了GPT-4o和Gemini-1.5Pro。
PixtralLarge在MM-MT-Bench上也展示了强有力的竞争力,优于Claude-3.5Sonnet(新版)、Gemini-1.5Pro和GPT-4o(最新版)。
在图像理解方面,PixtralLarge也表现优异。比如上传一份账单,询问该模型:「我买了咖啡和香肠,外加18%的小费。我该付多少钱?」
PixtralLarge会非常有条理地给出总消费金额,先是计算了咖啡和香肠的费用,2杯拿铁玛奇朵、1份香肠,然后计算18%的小费,最后给出总金额。
PixtralLarge也能准确理解并分析图表。比如对于下面的训练损失曲线图,问darkdragon模型什么时候开始出现问题。
PixtralLarge分析的也很准确:「在达到10,000step时,训练损失开始出现不稳定……随后,这种不稳定性持续存在,并在20,000step附近出现了另一个大的峰值……」
在接下来的示例中,上传一张图片,问PixtralLarge哪些公司使用MistralAI模型?
PixtralLarge也能根据图片提供的信息给出准确的结果,回答过程如下。
除了PixtralLarge,MistralAI最先进的文本模型MistralLarge也迎来了一次更新。该模型在API上以pixtral-large-latest的形式提供,在HuggingFace上以MistralLarge24.11的形式提供。
MistralLarge24.11将首先在GoogleCloud和MicrosoftAzure上推出,预计一周内即可使用。
模型和权重下载地址:https://huggingface.co/mistralai/Pixtral-Large-Instruct-2411/tree/main试用地址:https://chat.mistral.ai/chat
对标ChatGPT大升级
leChat已经强得可怕
PixtralLarge的发布,也让leChat的能力上升到了一个新的高度。
leChat现在可以处理大型、复杂的PDF文档和图像,比如一篇理论文献的所有内容——图形、表格、图表、文本、公式、方程式。
下面的例子展示了爱因斯坦、波多尔西和罗森于1935年撰写的著名量子纠缠论文的信息提取、总结和语义理解。
视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650943579&idx=2&sn=a6f5715b7bfa1f38c178e31547bbb34a&chksm=84e7f425b3907d3319a8b2a96dee06329dfa09c73555aa715b768c582ee5fb44f59154465acf&token=933530197&lang=zh_CN#rd
此外还有两项新能力登陆leChat:
首先是实时的网络搜索。这是一项关于生产力的升级,MistralAI表示,leChat的大部分用户来自学生和专业人士,而这些用户非常看重其在学习、研究和工作中的作用。
下面是一位营销类专业人士使用leChat来评估医疗保健人工智能市场:
视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650943579&idx=2&sn=a6f5715b7bfa1f38c178e31547bbb34a&chksm=84e7f425b3907d3319a8b2a96dee06329dfa09c73555aa715b768c582ee5fb44f59154465acf&token=933530197&lang=zh_CN#rd
然后是新的Canvas界面。当用户需要暂时离开对话进行构思时,它会弹出到leChat窗口中,随后用户可以和MistralLLM合作完成共享输出。
从此,我们和聊天机器人的互动不再局限于双向对话。借助LLM强大的推理能力,Canvas可以用来创建文档、演示文稿、代码、模型等,亮点在于「就地修改」内容,无需重新生成回复、版本控制草稿并预览设计。
比如在下方演示中,是一个产品团队为准备推出Canvas而创建产品指标仪表板的反应模型的视频。
视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650943579&idx=2&sn=a6f5715b7bfa1f38c178e31547bbb34a&chksm=84e7f425b3907d3319a8b2a96dee06329dfa09c73555aa715b768c582ee5fb44f59154465acf&token=933530197&lang=zh_CN#rd
MistralAI与SD作者团队成立的BlackForestLabs也达成了合作,因此leChat拥有了高质量的图像生成能力。
最后,如果你想马上体验到MistralAI最新放送的搜索、PDF上传、编码、图像生成等所有功能,请访问:http://chat.mistral.ai/
https://venturebeat.com/games/xsolla-announces-certified-parental-controls-a-boom-in-web-shop-revenue-and-expansion-in-se-asia/
网站地图、网站地图、网站地图、网站地图、网站地图、网站地图、网站地图、网站地图、网站地图、网站地图、网站地图、网站地图、网站地图、网站地图、网站地图、网站地图、网站地图、网站地图、网站地图、网站地图