H2O.ai发布两款视觉语言模型H2OVL Mississippi-2B和H2OVL-Mississippi-0.8B，助力高效文档分析

文章目录[隐藏]

大卫与歌利亚：小模型智胜科技巨头
效率与效果的结合：文档处理的新方法
行业分析师的观点
开源与企业就绪：H2O.ai的AI采用策略

H2O.ai是一家提供开源AI平台的公司，今天宣布了两款新的视觉语言模型，旨在改进文档分析和OCR任务。这些模型名为H2OVL Mississippi-2B和H2OVL-Mississippi-0.8B，展示了与主要科技公司的更大模型相比的竞争性能，可能为处理文档密集型工作流程的企业提供更高效的解决方案。

模型地址：H2OVL Mississippi-2B 和 H2OVL-Mississippi-0.8B

大卫与歌利亚：小模型智胜科技巨头

H2OVL Mississippi-0.8B：仅有8亿参数，在OCRBench文本识别任务中超越了所有其他模型，包括那些拥有数十亿参数的模型。
H2OVL Mississippi-2B：拥有20亿参数，在一系列视觉语言基准测试中展示了强大的通用性能。

H2O.ai的首席执行官兼创始人Sri Ambati在接受VentureBeat独家采访时表示：“我们设计了H2OVL Mississippi模型，以提供高性能且具有成本效益的解决方案，将AI驱动的OCR、视觉理解和文档AI带给企业。通过将先进的跨模态AI与效率相结合，H2OVL Mississippi在各个行业中提供了精确、可扩展的文档AI解决方案。”

H2O.ai的新模型H2OVL Mississippi-0.8B（最右边，黄色）在OCRBench数据集的文本识别任务上超越了技术巨头的大型模型，展示了小型、更高效的AI模型在文档分析中的潜力。

效率与效果的结合：文档处理的新方法

Ambati强调了较小、专业化模型的经济优势：“我们对生成预训练变压器的研究方法源于我们在文档AI中的深度投资，我们与客户合作，从企业文档中提取意义。这些模型可以在任何地方运行，占用空间小，高效且可持续，允许以极低的成本对特定领域的图像和文档进行微调。”

随着企业寻求更高效的方式来处理和提取大量文档中的信息，这一公告应运而生。传统的OCR和文档分析方法通常在处理质量较差的扫描、挑战性的手写或高度修改的文档时遇到困难。H2O.ai的新模型旨在解决这些问题，同时为特定文档相关任务提供更资源高效的替代方案，而不是使用可能过大的大型语言模型。

在八项单图像基准测试的平均分数比较中，H2O.ai的新模型H2OVL Mississippi-2B（黄色）胜过了包括微软和谷歌在内的几个竞争对手。在相似大小的视觉-语言模型中，该模型在整体性能上仅次于Qwen2 VL-2B

行业分析师的观点

行业分析师指出，H2O.ai的方法可能会颠覆当前由科技巨头主导的格局。通过专注于较小、更专业化的模型，H2O.ai可能能够占领重视效率和成本效益的企业市场的重要部分。

开源与企业就绪：H2O.ai的AI采用策略

“在H2O.ai，使AI易获取不仅仅是一个想法。它是一种运动，”Ambati告诉VentureBeat。“通过发布一系列可以轻松微调到特定任务的小型基础模型，我们正在扩展创建和使用AI的可能性。”

H2O.ai已从包括Commonwealth Bank、英伟达、Goldman Sachs和Wells Fargo在内的投资者那里筹集了2.56亿美元。该公司的开源方法和对实用、企业就绪的AI解决方案的关注帮助其建立了超过20,000个组织和超过一半的财富500强公司作为客户的社区。

AI·新世界