苹果发布多模态模型 Ferret
2025-07-12 17:23:46 - 深汇
编译 | 赖文昕
编辑 | 陈彩娴
大模型的苹果诞生,让科技巨头与创业公司们在新一轮的发布竞赛中再次鸣枪出发,OpenAI、多模Anthropic、态模Mistral等创业之星的苹果升起更是证明了在新工艺的作用下,大厂并不存在绝对的发布上海大学泄露推荐优势。
不久前,多模苹果叫停了启动十多年且投入数十亿美元的态模自动驾驶电动汽车项目,美国总部裁员了600多人,苹果另有近2000名员工转到AI部门。发布
然而,多模在目前市场上的态模主流智能手机品牌中,苹果几乎是苹果唯一一家尚未正式推出大模型的厂商。长期处在领头羊地位的发布苹果,似乎在大模型这一局中罕见地落后了。多模
4月8日,苹果发表了一个名为“Ferret-UI”的天津理工大学泄露价格新工作,这是一个能“看懂”手机屏幕上并能执行任务的多模态模型,专为增强对移动端 UI 屏幕的理解而定制,配备了引用(referring)、定位(grounding)和推理(reasoning)功能。
论文链接:https://arxiv.org/pdf/2404.05719.pdf
半年前,苹果和哥伦比亚大学研究团队联合发布的多模态大模型“Ferret”就已具有较高的图文关联能力,而“Ferret-UI”则是更聚焦移动端、关注客户交互。
研究团队认为,Ferret-UI 具备了解决现有大部分通用多模态大模型所缺乏的理解客户界面 (UI) 屏幕并与其有效交互的能力。
UI 任务表现超越GPT-4V
将重点放在 UI 后,Ferret-UI 有何亮点呢?
苹果的团队比较了 Ferret-UI-base、Ferret-UI-anyres、Ferret 和 GPT-4V 在所有 UI 任务上的性能,并在高级任务上将开源的 UI 多模态模型 Fuyu 和 CogAgent 也纳入对比之中。
首先是基础的 UI 任务性能测试。
Ferret-UI 在大多数基础 UI 任务上都展现出了优越的性能,尤其是在与iPhone相关的任务上,除了“查找文本”任务外,它在所有任务上都超过了Ferret和GPT-4V。
在OCR(光学字符识别)、图标识别和控件分类等基础 UI 任务上,Ferret-UI 的平均准确率分别为72.9%、82.4%和81.4%,远超 GPT-4V 的平均准确率,后者分别为47.6%、61.3%和37.7%。
在安卓任务上,GPT-4V 的性能显著下降,特别是在定位任务上,这可能是因为安卓屏幕上的小部件更多且更小,使得定位任务更具挑战性。
值得一提的是,在OCR任务中,模型预测的是目标区域旁边的文本,而不是目标区域内的文本。这对于较小的文本和非常靠近其他内容的文本来说很常见。
而 Ferret-UI 却能够准确预测部分被切断的文本,即使在OCR模型返回错误文本的情况下也是如此。
在查找文本、查找图标和查找控件等定位任务上,Ferret-UI也展现出了优越的性能。
而在高级 UI 任务性能的比拼中,Ferret-UI 同样表现优秀。在详细描述(DetDes)、感知对话(ConvP)、交互对话(ConvI)和功能推断(FuncIn)等高级任务上,Ferret-UI 展现了与 GPT-4V 相当的性能,并且在某些任务上超过了GPT-4V。
而与开源UI多模态模型 Fuyu 和 CogAgent 相比,Ferret-UI 在大多数任务上均实现超过。特别是在 iPhone 平台上,Ferret-UI 的性能得分显著高于 Fuyu 和 CogAgent。
而且,尽管 Ferret-UI 的训练信息集没有包含特定的安卓信息,但它在安卓平台的高级任务上仍表现出了可观的性能,表明了模型具有在不同操作系统间的 UI 知识迁移能力。
Anyres 工艺解决屏幕长宽比各异难题
那么,Ferret-UI 是如何做到在多项 UI 任务中表现出色的呢?
Ferret-UI 的一个关键创新是在 Ferret 的基础上引入了“任何分辨率”(any resolution,简称anyres)工艺。这项工艺是为了解决移动设备 UI 屏幕长宽比多样化的问题而提出的。
虽然 Ferret-UI-base 紧密遵循 Ferret 的架构,但 Ferret-UI-anyres 加入了额外的细粒度图像特征,尤其是一个预训练的图像编码器和投影层为整个屏幕生成图像特征。
对于根据原始图像长宽比获得的每个子图像,都会生成额外的图像特征;对于具有区域引用的文本,一个视觉采样器会生成相应的区域连续特征。
大型语言模型(LLM)则使用全图表示、子图表示、区域特征和文本嵌入来生成响应。
Ferret-UI-anyres架构
不过,Anyres 工艺有何特别之处?
传统的模型可能需要固定大小的输入,但手机等移动设备的屏幕大小和长宽比各异,显然给模型的输入带来了挑战。
为了适应这一点,Ferret-UI 将屏幕分割成多个子图像,这样可以对每个子图像进行放大,从而捕捉到更多的细节。
具体来说,对于每个基于原始图像长宽比获得的子图像,都会生成额外的图像特征。对于具有区域引用的文本,视觉采样器会生成相应的区域连续特征。
这种方法不仅适用于不同长宽比的屏幕,还提高了模型对UI元素的细节识别能力,能够突出显示屏幕上的小型对象,如图标和文本,对于提高模型的识别和定位精度至关关键。
另外,苹果研究团队还设计了一个分层次的实验方法,从简单到复杂,以逐步提升 Ferret-UI 模型的能力。
从基础的识别和分类任务开始,Ferret-UI 模型建立了对 UI 元素的基本理解,学会了识别和分类 UI 元素,为处理更复杂的任务打下基础。
接着逐步过渡到需要更高层次理解的对话和推断任务。随着模型能力的提高,任务变得更加复杂,要求模型不仅要识别 UI 元素,还要理解它们的功能和上下文。高级任务的设计为模型提供了必要的背景知识和理解能力,使其能够处理复杂的UI交互。
分层次的任务设计不仅有助于模型逐步学习,还能够确保模型在面对更复杂的 UI 交互时具有足够的背景知识和理解能力。通过这种方式,Ferret-UI 能够更好地理解和响应客户的指令,提供更加准确和有用的交互。
从基础的识别和分类到高级的描述和推断,Ferret-UI 在面对真实世界中的UI交互时,能够提供准确和有用的响应。再结合 anyres 工艺处理不同分辨率的屏幕,进一步增强了其在实际应用中的有效性和客户体验。
结语
面对当下激烈的大模型“厮杀”,科技巨头们亟需思考如何对市场战略和产物进行与时俱进的布局,苹果自然也不例外。
无论是Ferret-UI、Ferret-UI的前身 Ferret 还是旨在改善与语音助手交互的ReALM,苹果正一步步推进着能够读取屏幕信息的模型研究。
Ferret-UI 能够在移动设备上提供高质量的UI理解和交互,但它能否成为一个强大的工具,促使 iPhone 引入 AI,让苹果从稍显落后的境地反超呢?
让我们拭目以待。
雷峰网(公众号:雷峰网)本文作者 anna042023 将持续关注AI大模型领域的人事、企业、商业应用以及行业增长趋势,欢迎添加交流,互通有无。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。
- END -
万兴科技正式布局AIGC赛道 首款AIGC产品万兴AI绘画开启公测

11月10日,2022全球元宇宙大会“数字人技术与应用场景专场论坛”举办,元宇宙创作者经济A股上市公司万兴科技300624.SZ)在论坛中正式宣布与优链时代达成战略合作。结合万兴科技在视频领域的长期积
破解AI算力瓶颈:高通量以太网ETH+协议解锁智算新动能

AI技术的爆发性增长引发了对计算能力的空前需求。这场由数据驱动的智能革命不仅为高性能计算技术的发展注入了新的活力,同时也带来了前所未有的挑战,要求算法优化、硬件升级、系统架构等多个维度都进行深度创新,
阶跃星辰开放平台迎来多项更新,上线 Step

近日,大模型创业公司阶跃星辰在其开放平台体验中心,正式上线了图像生成大模型 Step-1X,注册即可体验。指路链接:https://platform.stepfun.com/console-tools
智元发布商用人形全家桶,双足10月开始量产,今年出货200台

8月18日,智元机器人举行“智元远征 商用启航” 2024年度新品发布会,智元联合创始人彭志辉主持并发布了“远征”与“灵犀”两大系列共五款商用人形机器人新品——远征A2、远征A2-W、远征A2-Max
阿里与上交大提出 LLM 长文本计算新解法:可处理文本长达 1900k 字节、效率提升 2.4 倍

编译 | 郭 思编辑丨陈彩娴在实际应用大模型的过程中,尤其是处理长文本的上下文信息时,如何高效灵活地调度计算资源成为一个学术界与工业界共同关注的问题。大语言模型所能容纳的上下文长度直接影响了诸如 Ch
“知乎AI先行者沙龙”深圳站:探航大模型应用新风口

7月14日,第三届“知乎AI先行者沙龙”在深圳举行。知乎邀请众多AI行业从业者、专家、学者齐聚一堂,用最前沿的观点和最专业的思考,共同探讨大模型应用的新风口。本届沙龙以“探航”为主题,知乎高级副总裁、
AI 手术平台 Caresyntax 获 1.8 亿美元融资;智元发布 5 款商用人形机器人,开发者还能“0元购”丨AI情报局

今日融资快报AI手术平台Caresyntax获1.8亿美元C+轮融资caresyntax致力于促进特定医疗环境如外科手术、介入放射检查及产科)更加智能和安全。其推出的解决方案利用物联网、数据分析和人工
与大模型交手近 1500 天,智源仍在坚持原始创新

2024 上半年, OpenAI 的成果从世界模拟器 Sora,到首个实现多模态 in 到多模态 out 的 GPT-4o ,仍在强势推进着迈向 AGI 的节奏。面对技术上的差距,追赶 OpenAI
2024年IEEE Fellow名单揭晓:「视觉智能」领域十余位华人学者入选!

近日,国际电气与电子工程师协会IEEE)公布了2024年新晋Fellow名单。本次共从被提名的949名候选人中选出323名IEEE Fellow,其中华人学者有116位,占总人数的36%左右。IEEE
AMD 6.65 亿美元收购 Silo AI;Genie 击败 Devin、GPT

今日融资快报AMD 收购欧洲第一私人AI实验室 Silo AI 交易价值约6.65亿美元AMD 宣布,已经正式完成了对Silo AI的收购,后者是欧洲规模最大的私人人工智能实验室之一。此次交易的价值约
智元发布商用人形全家桶,双足10月开始量产,今年出货200台

8月18日,智元机器人举行“智元远征 商用启航” 2024年度新品发布会,智元联合创始人彭志辉主持并发布了“远征”与“灵犀”两大系列共五款商用人形机器人新品——远征A2、远征A2-W、远征A2-Max
李飞飞所创 World Labs 估值或超 10 亿美元;传字节将于 19 日公布文生图/视频等 AI 模型进展丨AI情报局

今日融资快报李飞飞旗下AI初创企业World Labs估值已超10亿美元英国《金融时报》报道,著名华裔计算机科学家李飞飞创办的World Labs估值已经赶超10亿美元。该创企主要利用类似人类的视觉数