GPT 4.1 模型上线,支持百万token上下文,性能吊打 GPT 4o ,性价比超高!
昨天凌晨,OpenAI 再次出手。
宣布新一代 GPT 4.1 系列模型上线,此次新模型分为3个版本 —— GPT 4.1(主力旗舰)、GPT 4.1 mini(高效轻量)、GPT 4.1 nano(超小型极速),目前只能通过 API 访问。
虽然发布节奏没有惊喜,但 GPT 4.1 的实际性能却让人眼前一亮。尤其是在成本和响应速度的双重压缩下,GPT 4.1 仍然在核心能力上实现了越级表现,直接逼退 GPT 4.5 预览版,OpenAI 也宣布将在三个月后下线后者。
这不是简单的版本更迭,更像是 OpenAI 为开发者量身定制的一个“提质减负”模型。
性能升级,GPT 4.1>GPT 4.5
GPT 4.1 甚至在多项基准测试中“吊打”同门 GPT 4o 和 GPT 4.5。
- 编码:GPT 4.1 在 SWE-bench Verified 测试中得分 54.6%,比 GPT 4o 提高了 21.4 个百分点,较 GPT 4.5 提高了 26.6 个百分点,成为编码领域的领先模型。
- 指令跟随:在评估指令跟随能力的 MultiChallenge 测试中,GPT 4.1 得分 38.3%,比 GPT 4o 提高了 10.5 个百分点。
- 长上下文:在评估多模态长上下文理解能力的 Video-MME 测试中,GPT 4.1 创下了新的最先进成绩——在长时长无字幕类别中得分 72.0%,比 GPT 4o 提高了 6.7 个百分点。
对于此次 GPT 4.1 模型的命名,网友锐评:
编码能力
比如在被称为真实编程能力“验金石”的SWE-bench Verified 测试中,GPT4.1 完成了 54.6% 的任务,直接比 GPT 4o 多出 21.4%,领先 GPT 4.5 26.6%。
OpenAI 还专门训练了 GPT 4.1 ,使其能够更好地遵循代码 diff 格式,这使得开发人员能够仅通过让模型输出修改过的行,而非重写整个文件,从而节省成本并降低延迟。与此同时,OpenAI 将 GPT 4.1 的输出 token 限制提高到 32768 个token(显著高于 GPT 4o 的 16384 个token)。
在前端开发能力方面,GPT 4.1 相较于 GPT 4o 有了显著提升,能够构建功能更完善、界面更美观的Web应用。OpenAI用户调研数据显示,80%的付费用户更喜欢 GPT 4.1 创建的网页(左为4o创建的网页,右为4.1创建的网页)。
指令遵循
GPT 4.1 在遵循指令方面更加可靠,其在各种指令遵循评估中得到了显著的提升。
OpenAI 开发了一个用于评估模型指令遵循能力的内部评估系统,涵盖多个维度和几个关键类别,包括:
- 格式遵循:要求模型以特定格式(如 XML、YAML、Markdown 等)输出。
- 否定性指令:限制模型应避免的行为(例如:“不要让用户联系客户支持”)。
- 顺序性指令:提供一系列必须按特定顺序执行的指令(例如:“先询问用户的姓名,再询问他们的电子邮件”)。
- 内容要求:要求输出的内容包含特定信息(例如:“在制定营养计划时必须包含蛋白质含量”)。
- 排序要求:要求输出内容按照特定方式进行排序(例如:“按人口数量对结果进行排序”)。
- 过度自信控制:要求模型在信息不可用或请求不符合某类别时,能够说出“我不知道”或类似表述(例如:“如果你不知道答案,请提供客户支持的联系邮箱”)。
针对不同提示词,OpenAI 将提示划分为简单、中等和困难等级,其中 GPT 4.1 在面对困难指令的遵循方面,显著优于 GPT 4o 。
另外,根据 MultiChallenge 基准测试的数据,GPT 4.1 在多轮指令遵循能力方面相比 GPT 4o 提高了 10.5%。
IFEval 测试结果显示,GPT 4.1 的表现(87.4%)优于 GPT 4o(81.0%)。这项评估通过设置可验证的指令来进行,包括规定文本长度、限制特定词汇或格式等要求。
图像理解
GPT 4.1 系列的图像理解能力非常强大,尤其是 GPT 4.1 mini,在图像基准测试中经常击败 GPT 4o。
长上下文性能对于多模态应用场景同样重要,例如处理长视频。在 Video-MME测试中,GPT 4.1 表现优异,准确率达到 72.0%,相比 GPT 4o 的 65.3% 有显著提升,达到了当前最先进的水平。
超长上下文
除了性能方面的提升,此次新推出的 GPT 4.1 把上下文处理能力扩展到百万级 token,这意味着 GPT 4.1 可以处理100万个 token 上下文,非常适合处理大型代码库或大量长文档。
此外,GPT 4.1 相较于 GPT 4o 在检索、记忆上下文信息方面更加精准。
为了测试模型检索、理解多条信息及信息间关系的能力,OpenAI还推出了一个名为 OpenAI-MRCR 的评估平台,如下