文章目录[隐藏]
软件开发领域在过去几年中见证了AI代理的爆炸性使用,这些工具承诺提高生产力、自动化复杂任务并使开发者的日常生活更轻松。然而,一个普遍存在的问题是这些有前途的AI代理与它们有效解决现实世界问题的能力之间存在显著差距。大多数AI代理难以理解软件开发挑战的复杂性和上下文细微差别,尤其是在解决开发者每天面临的实际GitHub问题时。这些AI代理往往表现不佳,需要开发者进行广泛的监督或手动修正,这违背了它们的目的。
OpenHands CodeAct 2.1 的诞生
为了解决这一挑战,All Hands AI 开源了 OpenHands CodeAct 2.1,这是一个新的软件开发代理,标志着在AI驱动软件开发领域的重要突破。OpenHands CodeAct 2.1 是第一个在 SWE-Bench 标准基准测试中解决超过50%实际GitHub问题的AI代理。具体来说,它在SWE-Bench上的解决率为53%,在SWE-Bench Lite上的成功率为41.7%。
主要更新
OpenHands CodeAct 2.1 的性能提升主要源于以下三大更新:
- 模型升级:转向了 Anthropic 的新 Claude-3.5 模型,显著提高了自然语言理解能力,使 CodeAct 能更好地解释开发者提出的问题。
- 函数调用:代理的动作已修改为使用函数调用,从而在任务执行中带来更高的精度。这确保代理可以调用特定代码片段而不会误解,更准确地解决开发者问题。
- 目录遍历改进:在目录遍历方面做出了重大改进,减少了代理陷入重复或循环任务的情况。通过优化代理智能导航目录的能力,更大和更复杂的问题得以顺利解决,效率显著提高。
重要性
在SWE-Bench上达到53%的解决率意味着该基准测试中超过一半的问题在没有人工干预的情况下得到了解决。考虑到SWE-Bench专门设计为代表软件开发者面临的实际GitHub问题,这一里程碑表明OpenHands CodeAct 2.1可以通过自主解决大量问题直接影响软件工程工作流程。在更广泛的自动化开发辅助领域,这是重要的,因为它节省了开发者的时间,使他们能够专注于更高层次的挑战,而不是被繁琐的问题解决所困扰。
在SWE-Bench Lite上,OpenHands CodeAct 2.1达到41.7%的解决率的数据也支持其在处理较简单问题时的多功能性和能力,这些问题在开发管道中未被检查时同样具有破坏性。
开源性质
OpenHands CodeAct 2.1 的开源性质邀请了全球开发者参与并进一步改进代理——这是开发社区高度重视的特点。开发者可以自由使用、改进和适应这个开源代理,使其成为寻求有效AI解决方案的开发者的首选。
使用灵活性
无论开发者是希望在本地运行OpenHands,通过GitHub动作集成它,还是注册即将发布的在线版本,OpenHands CodeAct 2.1都提供了灵活性,并向所有开发者开放参与其进化的邀请。