Kimi 发布视觉思考模型 k1:强化学习驱动的多学科智能助手

1. 概述

月之暗面(Kimi)于今日正式发布了其最新的视觉思考模型 k1,该模型基于强化学习技术打造,原生支持端到端图像理解和思维链(Chain of Thought, CoT)技术,并将能力扩展到数学之外的更多基础科学领域。官方表示,在数学、物理、化学等基础科学学科的基准能力测试中,初代 k1 模型的表现超过了 OpenAI 的 o1、GPT-4o 以及 Anthropic 的 Claude 3.5 Sonnet。

2. 模型特点与优势

2.1 多学科支持
  • 数学、物理、化学等基础科学:k1 模型不仅在数学领域表现出色,还在物理、化学等其他基础科学学科中取得了优异的成绩。这标志着视觉思考模型的能力已经从单一的数学问题解决扩展到了更广泛的科学领域。
2.2 思维链技术(CoT)
  • 完整呈现推理过程:k1 模型不仅仅是给出答案,而是通过思维链技术(CoT),完整展示模型推理的全过程。用户可以清晰地看到模型是如何逐步分析问题并得出结论的,这对于教育和科研场景尤为重要,能够帮助用户更好地理解问题的解决思路。
2.3 强大的字符识别能力
  • 优化的 OCR 性能:k1 的基础模型在字符识别方面进行了重点优化,尤其在 OCRBench 测试集上取得了 903 分 的 SOTA(State-of-the-Art)结果。此外,k1 在 MathVista-testmini、MMMU-val 和 DocVQA 基准测试集上的分数分别为 69.166.7 和 96.9,展示了其在不同任务中的广泛适用性。
2.4 强化学习后训练
  • 数据质量和学习效率的优化:k1 的训练分为两个阶段,首先是预训练得到基础模型,然后在基础模型上进行强化学习后训练。在这一过程中,月之暗面团队特别注重数据质量和学习效率的优化,确保模型能够在大规模数据上高效学习,并在复杂任务中表现优异。
  • 规模化突破:k1 在强化学习的规模化(scaling)上取得了新的突破,能够在更大规模的数据集和更复杂的任务中保持高效的学习和推理能力。

3. 应用与体验

3.1 多平台支持
  • Android 和 iPhone 手机 App:k1 视觉思考模型已陆续上线最新版的「Kimi 智能助手」手机 App,用户可以在 Android 和 iPhone 上下载并使用该功能。
  • 网页版:除了手机 App,k1 还可以通过网页版 kimi.com 使用,用户可以在浏览器中访问 Kimi+ 页面,找到「Kimi 视觉思考版」,拍照或上传图片进行体验。
3.2 用户体验
  • 拍照或传图体验:用户可以通过拍照或上传图片的方式,让 k1 模型分析图像内容,并生成详细的推理过程和答案。这种交互方式使得用户可以随时随地获得科学问题的解答,极大地提升了使用的便捷性和趣味性。

4. 科学模型能力基准测试

4.1 自主构建的标准化测试集 Science Vista
  • 填补行业空白:由于市面上缺乏针对基础科学学科的图形测试集,Kimi 模型研发团队自主构建了一个标准化的测试集 Science Vista,涵盖不同难度的数理化图片题目。该测试集的分布与实际用户需求较为匹配,能够更真实地反映模型在实际应用场景中的表现。
  • 开放给全行业:为了推动整个行业的进步,月之暗面决定将 Science Vista 测试集开放给全行业,用户可以在许可范围内申请使用。这一举措有望为大模型的评估和改进提供重要的参考标准。

5. 局限性与未来展望

尽管 k1 模型在多个基准测试中表现出色,但月之暗面也坦诚指出了 k1 存在的一些局限性:

  • 分布外泛化能力不足:在处理分布外(out-of-distribution)的场景时,k1 模型的泛化能力仍有提升空间。
  • 复杂问题的成功率较低:对于更复杂的问题,k1 模型的成功率还有待提高。
  • 噪声场景下的准确率有待提升:在存在更多噪声的场景中,k1 模型的准确率需要进一步优化。
  • 多轮问答效果需改进:在多轮问答场景中,k1 模型的表现还有提升的空间。

此外,月之暗面表示,虽然 k1 模型在某些方面已经超越了 OpenAI 的 o1 系列模型,但在一些场景和泛化能力上,两者之间仍存在一定差距。未来,团队将继续优化 k1 模型,提升其在各种复杂任务中的表现,进一步缩小与领先模型的差距。