苹果推出多模态大语言模型Ferret-UI 2:实现跨平台的用户界面(UI)理解

苹果在今年4月推出了多模态大语言模型Ferret-UI ,近期又推出了升级版Ferret-UI 2,它旨在实现跨平台的用户界面(UI)理解。Ferret-UI 2能够处理来自不同设备和平台的UI,包括iPhone、Android、iPad、网页和AppleTV,从而提供更广泛的适用性和用户体验。

例如,用户想要通过语音命令在智能电视(AppleTV)上搜索一部电影。Ferret-UI 2能够理解用户的指令,并在AppleTV的界面上执行相应的搜索操作。或者,如果用户在iPhone上收到一条通知,想要了解通知的具体内容,Ferret-UI 2可以解读通知界面并告诉用户详细信息。

主要功能:

  1. 多平台支持:Ferret-UI 2支持多种设备和平台,如智能手机、平板电脑、网页和智能电视。
  2. 高分辨率感知:通过自适应缩放技术,模型能够在不同分辨率的设备上保持对视觉元素的准确识别。
  3. 高级任务训练数据生成:使用GPT-4o和集合标记视觉提示来生成训练数据,提高模型对UI元素空间关系的理解。

主要特点:

  • 自适应网格编码:Ferret-UI 2引入了一种自适应N网格机制,以优化局部编码的分辨率,保持信息的同时提高效率。
  • 跨平台迁移能力:模型能够在不同平台间迁移学习到的知识,展现出强大的跨平台适应性。
  • 用户中心交互:Ferret-UI 2能够执行基于用户意图的单步交互,而不仅仅是机械式的点击指令。

工作原理:

Ferret-UI 2通过结合CLIP图像编码器和大型语言模型(LLM)来实现UI理解。图像编码器从UI截图中提取全局和局部特征,然后这些特征被送入LLM。视觉采样器根据用户指令识别和选择相关的UI区域,最后模型输出与UI元素交互的描述。

具体应用场景:

  • 智能家居控制:用户可以通过语音命令控制智能设备,如调整智能灯泡的亮度或开关。
  • 移动设备自动化:在移动设备上自动完成日常任务,如设置闹钟、发送短信或浏览网页。
  • 网页内容交互:在网页上执行复杂的交互任务,如在线购物、填写表单或阅读长篇文章。
  • 多步骤任务执行:在多个平台上执行需要多个步骤的任务,如预订餐厅、购买电影票或安排旅行。

总的来说,Ferret-UI 2通过其多模态能力和跨平台设计,为广泛的UI自动化和用户交互任务提供了一个强大的工具,使得与数字系统的交互更加直观和高效。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

我们将24小时内回复。
取消