AI·新世界

苹果推出多模态大语言模型Ferret-UI 2：实现跨平台的用户界面（UI）理解

2024年11月2日

/

大语言模型

文章目录[隐藏]

主要功能：
主要特点：
工作原理：
具体应用场景：

苹果在今年4月推出了多模态大语言模型Ferret-UI ，近期又推出了升级版Ferret-UI 2，它旨在实现跨平台的用户界面（UI）理解。Ferret-UI 2能够处理来自不同设备和平台的UI，包括iPhone、Android、iPad、网页和AppleTV，从而提供更广泛的适用性和用户体验。

模型：https://huggingface.co/jadechoghari/Ferret-UI-Gemma2b
模型：https://huggingface.co/jadechoghari/Ferret-UI-Llama8b

例如，用户想要通过语音命令在智能电视（AppleTV）上搜索一部电影。Ferret-UI 2能够理解用户的指令，并在AppleTV的界面上执行相应的搜索操作。或者，如果用户在iPhone上收到一条通知，想要了解通知的具体内容，Ferret-UI 2可以解读通知界面并告诉用户详细信息。

主要功能：

多平台支持：Ferret-UI 2支持多种设备和平台，如智能手机、平板电脑、网页和智能电视。
高分辨率感知：通过自适应缩放技术，模型能够在不同分辨率的设备上保持对视觉元素的准确识别。
高级任务训练数据生成：使用GPT-4o和集合标记视觉提示来生成训练数据，提高模型对UI元素空间关系的理解。

主要特点：

自适应网格编码：Ferret-UI 2引入了一种自适应N网格机制，以优化局部编码的分辨率，保持信息的同时提高效率。
跨平台迁移能力：模型能够在不同平台间迁移学习到的知识，展现出强大的跨平台适应性。
用户中心交互：Ferret-UI 2能够执行基于用户意图的单步交互，而不仅仅是机械式的点击指令。

工作原理：

Ferret-UI 2通过结合CLIP图像编码器和大型语言模型（LLM）来实现UI理解。图像编码器从UI截图中提取全局和局部特征，然后这些特征被送入LLM。视觉采样器根据用户指令识别和选择相关的UI区域，最后模型输出与UI元素交互的描述。

具体应用场景：

智能家居控制：用户可以通过语音命令控制智能设备，如调整智能灯泡的亮度或开关。
移动设备自动化：在移动设备上自动完成日常任务，如设置闹钟、发送短信或浏览网页。
网页内容交互：在网页上执行复杂的交互任务，如在线购物、填写表单或阅读长篇文章。
多步骤任务执行：在多个平台上执行需要多个步骤的任务，如预订餐厅、购买电影票或安排旅行。

总的来说，Ferret-UI 2通过其多模态能力和跨平台设计，为广泛的UI自动化和用户交互任务提供了一个强大的工具，使得与数字系统的交互更加直观和高效。

相关文章