色婷婷av一区二区三区之红樱桃,三年中国片在线高清观看 ,欧美大屁股xxxx,日本大片在线看黄a∨免费,欧洲熟妇xxxxx欧洲少妇hd

蘋果論文展示Ferret-UI大語言模型:可深度理解屏幕信息內(nèi)容

Antutu ?

?

閱讀

近日,蘋果發(fā)布研究論文,展示了名叫“Ferret-UI”的多模態(tài)大語言模型。

根據(jù)論文介紹,F(xiàn)erret-UI模型針對(duì)目前MLLMs模型(多模態(tài)大語言模型)無法有效理解移動(dòng)應(yīng)用程序在屏幕上顯示的內(nèi)容這一問題,做出了針對(duì)性的調(diào)整。

為了訓(xùn)練Ferret-UI,蘋果收集了大量初級(jí)用戶界面任務(wù)的訓(xùn)練樣本,如圖標(biāo)識(shí)別、查找文本和小部件列表。

這些樣本的格式都是按照帶有區(qū)域注釋的指令來設(shè)計(jì)的,以便于精確引用和接地。

同時(shí),為了增強(qiáng)模型的推理能力,蘋果進(jìn)一步編制了高級(jí)任務(wù)數(shù)據(jù)集,包括詳細(xì)描述、感知/交互對(duì)話和功能推理。

這使得Ferret-UI相較目前的GPT-4V等MLLMs模型,在理解應(yīng)用程序在屏幕上顯示的內(nèi)容時(shí),有著顯著的優(yōu)勢(shì)。

原創(chuàng)文章,作者:Noer,如若轉(zhuǎn)載,請(qǐng)注明出處:http://www.fangsai.com.cn/doc/131450.htm

相關(guān)推薦

登錄后才能評(píng)論

評(píng)論列表 ( )

返回
頂部