Mistral放大招！124B多模态巨无霸登场，免费版ChatGPT震撼突袭

2024-11-20 10:31:02硅星人

MistralAI终于放大招了！一连发布两大更新——

PixtralLarge：前沿级124B多模态模型，用于驱动新LeChat。

全新LeChat：具备网页搜索、Canvas、图像生成、图像理解等功能——而且所有功能免费提供！

Mistral的CEO兼联创ArthurMensch宣布道：「此次发布是一个重要的里程碑」！

现已可在官网上体验LeChat的使用。

体验地址：https://chat.mistral.ai/chat

PixtralLarge：地表最强开源多模态来了？

在官博中，研究人员总结了PixtralLarge的5大亮点：

SOTA的多模态性能

在MathVista、DocVQA、VQAv2等任务上达到SOTA水平

在不影响文本处理性能的前提下对MistralLarge2进行扩展

1230亿参数的多模态解码器，10亿参数的视觉编码器

128K上下文窗口长度：可容纳至少30张高分辨率图像

具体来说，PixtralLarge是Mistral多模态系列的第二个模型，基于MistralLarge2构建，有1240亿参数。该模型能够理解文档、图表和自然图像，同时保持了MistralLarge2卓越的纯文本理解能力。

PixtralLarge拥有128K上下文窗口长度，意味着它可以处理多达30张高分辨率图像或约300页书籍的输入，这一能力与OpenAI的GPT系列顶级模型相当。

该模型在Mistral研究许可证（MRL）下可用于研究和教育用途。模型及其权重可在HuggingFace平台上免费下载。

下载地址：https://huggingface.co/mistralai/Pixtral-Large-Instruct-2411/tree/main

性能评测

在评估视觉数据复杂数学推理能力的MathVista测试中，PixtralLarge获得了69.4的高分，超越了所有其他模型。

在评估复杂图表和文档推理能力的ChartQA和DocVQA测试中，PixtralLarge超过了GPT-4o和Gemini-1.5Pro。

最后，PixtralLarge在反映多模态大语言模型实际使用场景的MM-MT-Bench测试中，表现也十分亮眼——凭借着7.4的得分，一举超越了新版Claude3.5Sonnet、Gemini-1.5Pro和最新的GPT-4o。

定性实验

1.多语言OCR和推理

提示：

我买了咖啡和香肠。我需要付多少钱？加上18%的小费。

回答：

要计算包含18%小费的总金额，请按以下步骤：

1.计算咖啡和香肠的费用：

-2杯拿铁玛奇朵：2*4.50CHF=9.00CHF-1份猪排：22.00CHF-咖啡和香肠的总费用：9.00CHF+22.00CHF=31.00CHF

2.计算18%的小费：

-小费：31.00CHF*0.18=5.58CHF

3.将小费加入总费用：

-应付总额：31.00CHF+5.58CHF=36.58CHF

因此，需要支付总计36.58CHF。

2.图表理解

提示：

darkdragon什么时候开始出现问题？

回答：

「dark-dragon-50」模型的训练损失在大约10,000步时开始表现出明显的不稳定性。在这一点上，损失值表现出明显的峰值，这种不稳定性持续到大约20,000步时又有另一个主要峰值。这些峰值意味着，「dark-dragon-50」模型的训练过程在大约10,000步时开始遇到问题。

3.其他案例

提示：

哪些公司使用MistralAI开发的模型？

回答：

根据图片显示，使用MistralAI模型的公司包括：BNPParibas、Brave、Cloudflare、CMACGM和Front。

「白嫖版」ChatGPT，图像生成搜索100%免费

全新升级后的LeChat，能够支持图像生成、网络搜索、Canvas、PDF上传等强大功能。

关键是，完全免费。

你可以将其用作创意伙伴，教它执行特定的任务，并把它作为编码copilot。

基本上，任何日常中的任务，它都能胜任。

官方博文中，简要总结了LeChat新的能力：

带引用的Web搜索

用于构思、文内编辑、导出的Canvas

最先进的文档和图像理解，由PixtralLarge2加持

图像生成，直达Flux1.1Pro

从模型到输出的全面集成

由推测性编辑（speculativeediting）提供更快的响应

那么，LeChat和当前备受欢迎的聊天机器人/搜索助手区别都有哪些：

接下来，具体看下LeChat带来的新能力。

网络搜索

LeChat很大一部分用户是学生和专业人士，将其用于学习、研究和工作。

为了让其发挥更大的效力，MistralAI团队通过互联网搜索增强了LeChat的训练知识。

而且，它还得到了PixtralLarge2加持，能够访问最新知识和事件。

在下面的实例中，一位营销团队的成员，用LeChat来评估医疗保健AI市场。

AI给出的每个结果末，会附上相应的参考来源，供再次查证。

Canvas（画布）

前段时间，OpenAI曾发布了Canvas，目的是让AI与人类在ChatGPT中可以共同协作。

类似地，LeChat中的Canvas，也充当着这个功能。

当你不仅仅需要的是对话，开始构思时，它会在聊天窗口中弹出。

如下，MistralAI的产品团队在为Canvas推出时，创建了一个如何让大家使用新功能的演示。

左边的Canvas中给出了关于用户使用、管理等各种指标。

若是还有另外的要求，直接在右边的聊天界面要求——用mockdata创建一个React仪表盘，显示这些指标。

而且，你还可以针对AI生成的代码进行再编辑，比如添加文本描述。

通过Canvas你可以创建文档、写代码等等，它能为你提供无限创造性思维。

快速准确理解文档

另外，LeChat还能处理大型、复杂的PDF文档和图像，并对其进行分析和总结。

具体操作，和大家日常用的其他AI流程一样。

值得一提的是，它是由最强大的多模态PixtralLarge加持。

不如看看，LeChat究竟有多强大？

上传一篇由爱因斯坦、波多尔西和罗森在1935年发表的著名量子纠缠论文，里面包含了很多复杂的公式。

然后让AI对论文进行信息提取、总结，和语义理解。

比如，基本的问题——论文作者是谁，并让它将论文总结成三段话。

甚至，你可以让它列出关键公式，谈谈这篇论文影响力。

图像生成

Mistral与BlackForestLabs合作，将他们的图像生成模型FLUX1.1[pro]引入了LeChat。

FLUX1.1[pro]生成图像风格案例

智能体自动化重复工作流

如果你发现自己经常重复使用某些提示词，或者发现某些创造性工作的模式可以被自动化，可以将这些工作流程编码为代理。

常见的使用场景包括，扫描收据进行费用报告、为冗长的会议记录创建摘要、发票处理。

LeChat智能体能够和团队成员共享，推进工作流程。

你可以创建角色扮演对话智能体。比如让智能体模仿单口喜剧演员AliWong和JimmyYang的风格。

你还可以创建一个只说法语的智能体。你需要为这个智能体设置特定的指令，并使用少量示例学习，确保它理解只用法语进行交流的要求。

你还可以创建一个只输出Python代码的智能体，并要求它不提供任何解释。这在你需要生成可以轻松复制粘贴的代码片段时非常有用，避免了模型通常提供的额外解释性文本。

此外，你可以在工作流中利用多个智能体。以下是一个生成数据分析报告的工作流，工作流共包含数据分析规划、代码生成与执行、分析报告总结三步，每一步都有一个单独的智能体。

数据分析规划：数据分析规划智能体编写一份全面的数据分析计划，概述分析数据所需的步骤。

代码生成与执行：对于分析计划中的每个步骤，Python智能体生成相应的代码。然后，Python智能体执行生成的代码，以执行指定的分析。

分析报告总结：基于已执行代码的结果，总结智能体编写一份分析报告。报告总结了从数据分析中得出的发现和洞察。

参考资料：

https://mistral.ai/news/mistral-chat/

https://mistral.ai/news/pixtral-large/

APP下载