法国初创公司 Mistral AI 推出新一代多模态 AI 模型 Pixtral Large
Mistral AI,这家去年以创纪录的种子轮融资额震惊欧洲的法国初创公司,今天发布了一系列更新,其中包括一个名为 Pixtral Large 的全新大型基础模型。
该公司还对其免费的网络聊天机器人 Le Chat 进行了升级,增加了图像生成、网络搜索和交互式“画布”功能,使其功能与 OpenAI 的 ChatGPT 相媲美,并成为其更强大的竞争对手。
Mistral AI 首席执行官兼联合创始人 Arthur Mensch 在社交网络 X 上的账号中写道:“在 Mistral,我们意识到,要创造最佳的 AI 体验,就需要共同设计模型和产品界面。Pixtral 的训练目标是面向高影响力的前端应用,它就是一个很好的例子。”
想要尝试 Le Chat 新功能的用户需要在网页界面上启用这些功能作为测试版功能。请注意,使用 Le Chat 需要使用免费的 Mistral、Google 或 Microsoft 帐户。
Mistral 的全新 1240 亿参数模型 Pixtral Large 基于其前身 Mistral Large 2(于 2024 年夏季发布)以及其首个多模态模型 Pixtral 12-B(于 9 月发布)构建。
它包含一个 1230 亿参数解码器和一个 10 亿参数视觉编码器,使其能够在文本和视觉数据处理方面都表现出色。
正如你所知,参数指的是控制模型输入和输出的设置数量,参数越多,通常意味着模型更强大、更博学、性能更佳。
Mistral 开发者关系主管 Sophia Yang 在其 X 账号上发布的一篇文章中写道,Pixtral Large 在“多语言 OCR [光学字符识别]、推理、图表理解等方面表现出色”。Yang 还附上了 Pixtral Large 在 Le Chat 中使用 OCR 分析用户上传的收据的截图,展示了其在摄取和记录费用方面的能力,以及在本例中,如何将账单与小费分开。
Pixtral Large 的上下文窗口为 128,000 个 token,能够处理最多 30 张高分辨率图像或约 300 页书籍,这与领先的 OpenAI GPT 系列模型相当。
该模型在各种基准测试中表现出最先进的性能,包括 MathVista、DocVQA 和 VQAv2,使其成为图表解读、文档分析和图像理解等任务的理想选择。
虽然该模型和权重可以在 Hugging Face 上免费下载,但它们是在 Mistral AI 研究许可协议下发布的,该协议规定只能用于非商业性、以研究为目的的应用。
想要将其用于商业目的的用户需要通过 Mistral 的 Le Platforme 托管网络服务上的 API 进行操作,或者通过联系表格直接从该公司获得单独的许可,这意味着它实际上并非完全开源。
尽管如此,Mistral AI 通过提供 Pixtral Large,赋予研究人员和开发人员利用先进的多模态 AI 的能力,同时确保负责任和合乎道德的使用。
Mistral AI 工具的核心是 Le Chat,一个免费平台,现在借助 Pixtral Large 的强大功能,增加了新功能。
Le Chat 专为研究、构思和自动化等各种用例而设计,将文本、视觉和交互式功能整合到无缝的生产力体验中。
Le Chat 的新功能:
1. 带引文的网络搜索:用户可以使用实时网络搜索来补充 AI 的知识,并提供来源引用以确保透明度。
2. 构思画布:这个创新的界面允许用户在一个交互式的新空间中创建、修改和协作文档、演示文稿和设计,该空间出现在聊天机器人界面的左侧。
正如 Yang 在 X 上写道的那样:Le Chat 画布“非常适合创意构思。你可以使用画布来创建文档、演示文稿、代码、模型……等等。”
这距离 OpenAI 发布其自己的 ChatGPT 侧边栏交互式元素 Canvas 仅仅六周,许多人认为该功能旨在与 Anthropic 早期为其 Claude 聊天机器人发布的 Artifacts 相抗衡。
3. 高级文档和图像分析:借助 Pixtral Large,Le Chat 现在可以处理和总结复杂的 PDF 文件,从图表、表格、方程式等中提取见解。
4. 图像生成:通过与独立图像模型初创公司 Black Forest Labs 的合作,Le Chat 现在包含由 Flux Pro 模型驱动的图像生成功能,使用户能够直接在聊天界面中生成高质量的视觉效果。这是对 OpenAI 在 ChatGPT 中集成的 DALL-E 3(这两个模型都来自 OpenAI)的明确回应,也是 Black Forest Labs 新模型第二次被整合到领先的 AI 基础模型提供商的产品中,此前该公司与埃隆·马斯克的 xAI 合作,为该公司在 X(马斯克拥有的社交网络)上提供的 Grok-2 聊天机器人提供图像生成功能。
5. 用于自动化的任务代理:可自定义的代理可以自动执行重复性任务,例如总结会议记录、处理发票或扫描收据,从而节省用户的时间和精力。
这些功能将 Le Chat 打造成一个多功能的 AI 助手,能够处理传统上需要多个工具才能完成的任务。
Mistral AI 強調了 Le Chat 的全面功能集及其与 ChatGPT、Perplexity 和 Claude 等平台相比的易用性。虽然竞争对手可能需要高级订阅才能获得类似的功能,但 Le Chat 在其测试阶段完全免费提供集成的多模态体验。
凭借 Pixtral Large 和增强的 Le Chat,Mistral 正在展示其研究和开发实力。
即使一些科技行业人士认为智能的成本正在下降,这使得模型提供商更难找到收入来源,但 Mistral 并没有放弃改进其产品以与该领域的其他领导者竞争,而且它使用更少的参数——1240 亿,而 Meta 最新的 Llama 3.1 版本则有 4050 亿。
然而,Mistral 仍然缺少一些竞争对手(如 OpenAI 的 ChatGPT 高级语音模式或 Google 的 Gemini Live)中发现的先进语音和音频功能。
Kong 最近的一项调查显示,尽管 Mistral 的模型和 API 在技术上很强大,并且提供了各种开源和专有产品,但大型企业对 Mistral 模型和 API 的使用远远落后于 OpenAI、Anthropic 和 Microsoft 等美国公司。
然而,随着最近的总统大选以及 xAI 创始人埃隆·马斯克对唐纳德·特朗普的影响,欧盟及其成员国很可能会将 Mistral 视为一种获取不受美国及其新任争议领导人控制的 AI 的手段。
换句话说:AI 正在迅速与民族主义和地缘政治联系在一起,而 Mistral 发现自己处于一个可能有利的位置,成为欧洲迄今为止培养的最佳 AI 模型提供商之一。