H2O.ai发布两款视觉语言模型H2OVL Mississippi-2B和H2OVL-Mississippi-0.8B,助力高效文档分析

H2O.ai是一家提供开源AI平台的公司,今天宣布了两款新的视觉语言模型,旨在改进文档分析和OCR任务。这些模型名为H2OVL Mississippi-2B和H2OVL-Mississippi-0.8B,展示了与主要科技公司的更大模型相比的竞争性能,可能为处理文档密集型工作流程的企业提供更高效的解决方案。

模型地址:H2OVL Mississippi-2B  H2OVL-Mississippi-0.8B

大卫与歌利亚:小模型智胜科技巨头

  • H2OVL Mississippi-0.8B:仅有8亿参数,在OCRBench文本识别任务中超越了所有其他模型,包括那些拥有数十亿参数的模型。
  • H2OVL Mississippi-2B:拥有20亿参数,在一系列视觉语言基准测试中展示了强大的通用性能。

H2O.ai的首席执行官兼创始人Sri Ambati在接受VentureBeat独家采访时表示:“我们设计了H2OVL Mississippi模型,以提供高性能且具有成本效益的解决方案,将AI驱动的OCR、视觉理解和文档AI带给企业。通过将先进的跨模态AI与效率相结合,H2OVL Mississippi在各个行业中提供了精确、可扩展的文档AI解决方案。”

H2O.ai的新模型H2OVL Mississippi-0.8B(最右边,黄色)在OCRBench数据集的文本识别任务上超越了技术巨头的大型模型,展示了小型、更高效的AI模型在文档分析中的潜力。

效率与效果的结合:文档处理的新方法

Ambati强调了较小、专业化模型的经济优势:“我们对生成预训练变压器的研究方法源于我们在文档AI中的深度投资,我们与客户合作,从企业文档中提取意义。这些模型可以在任何地方运行,占用空间小,高效且可持续,允许以极低的成本对特定领域的图像和文档进行微调。”

随着企业寻求更高效的方式来处理和提取大量文档中的信息,这一公告应运而生。传统的OCR和文档分析方法通常在处理质量较差的扫描、挑战性的手写或高度修改的文档时遇到困难。H2O.ai的新模型旨在解决这些问题,同时为特定文档相关任务提供更资源高效的替代方案,而不是使用可能过大的大型语言模型。

在八项单图像基准测试的平均分数比较中,H2O.ai的新模型H2OVL Mississippi-2B(黄色)胜过了包括微软和谷歌在内的几个竞争对手。在相似大小的视觉-语言模型中,该模型在整体性能上仅次于Qwen2 VL-2B

行业分析师的观点

行业分析师指出,H2O.ai的方法可能会颠覆当前由科技巨头主导的格局。通过专注于较小、更专业化的模型,H2O.ai可能能够占领重视效率和成本效益的企业市场的重要部分。

开源与企业就绪:H2O.ai的AI采用策略

“在H2O.ai,使AI易获取不仅仅是一个想法。它是一种运动,”Ambati告诉VentureBeat。“通过发布一系列可以轻松微调到特定任务的小型基础模型,我们正在扩展创建和使用AI的可能性。”

H2O.ai已从包括Commonwealth Bank、英伟达、Goldman Sachs和Wells Fargo在内的投资者那里筹集了2.56亿美元。该公司的开源方法和对实用、企业就绪的AI解决方案的关注帮助其建立了超过20,000个组织和超过一半的财富500强公司作为客户的社区。

我们将24小时内回复。
取消