H2O.ai是一家提供开源AI平台的公司,今天宣布了两款新的视觉语言模型,旨在改进文档分析和OCR任务。这些模型名为H2OVL Mississippi-2B和H2OVL-Mississippi-0.8B,展示了与主要科技公司的更大模型相比的竞争性能,可能为处理文档密集型工作流程的企业提供更高效的解决方案。
模型地址:H2OVL Mississippi-2B 和 H2OVL-Mississippi-0.8B
大卫与歌利亚:小模型智胜科技巨头
- H2OVL Mississippi-0.8B:仅有8亿参数,在OCRBench文本识别任务中超越了所有其他模型,包括那些拥有数十亿参数的模型。
- H2OVL Mississippi-2B:拥有20亿参数,在一系列视觉语言基准测试中展示了强大的通用性能。
H2O.ai的首席执行官兼创始人Sri Ambati在接受VentureBeat独家采访时表示:“我们设计了H2OVL Mississippi模型,以提供高性能且具有成本效益的解决方案,将AI驱动的OCR、视觉理解和文档AI带给企业。通过将先进的跨模态AI与效率相结合,H2OVL Mississippi在各个行业中提供了精确、可扩展的文档AI解决方案。”
效率与效果的结合:文档处理的新方法
Ambati强调了较小、专业化模型的经济优势:“我们对生成预训练变压器的研究方法源于我们在文档AI中的深度投资,我们与客户合作,从企业文档中提取意义。这些模型可以在任何地方运行,占用空间小,高效且可持续,允许以极低的成本对特定领域的图像和文档进行微调。”
随着企业寻求更高效的方式来处理和提取大量文档中的信息,这一公告应运而生。传统的OCR和文档分析方法通常在处理质量较差的扫描、挑战性的手写或高度修改的文档时遇到困难。H2O.ai的新模型旨在解决这些问题,同时为特定文档相关任务提供更资源高效的替代方案,而不是使用可能过大的大型语言模型。
行业分析师的观点
行业分析师指出,H2O.ai的方法可能会颠覆当前由科技巨头主导的格局。通过专注于较小、更专业化的模型,H2O.ai可能能够占领重视效率和成本效益的企业市场的重要部分。
开源与企业就绪:H2O.ai的AI采用策略
“在H2O.ai,使AI易获取不仅仅是一个想法。它是一种运动,”Ambati告诉VentureBeat。“通过发布一系列可以轻松微调到特定任务的小型基础模型,我们正在扩展创建和使用AI的可能性。”
H2O.ai已从包括Commonwealth Bank、英伟达、Goldman Sachs和Wells Fargo在内的投资者那里筹集了2.56亿美元。该公司的开源方法和对实用、企业就绪的AI解决方案的关注帮助其建立了超过20,000个组织和超过一半的财富500强公司作为客户的社区。