幾天前,蘋果在 HuggingFace 上全面開源了視覺語言模型 FastVLM 和 MobileCLIP2,再次在 AI 社區(qū)掀起震動(dòng)。
這兩款模型的直觀特征只有一個(gè)字:快。FastVLM 在部分任務(wù)上的響應(yīng)速度比同類模型快出 85 倍,并且能在 iPhone 這樣的個(gè)人設(shè)備上流暢運(yùn)行。但這并非一次孤立的技術(shù)秀。
與 MobileCLIP2 等開源模型一道,F(xiàn)astVLM 構(gòu)成了蘋果“B 計(jì)劃”的核心:端側(cè) AI 小模型戰(zhàn)略。
蘋果亮劍小模型
用最通俗的語言解釋FastVLM。它是一個(gè)“看得懂圖、讀得懂話”的多模態(tài)模型,重點(diǎn)有2個(gè),1個(gè)是名字里的“Fast”——快;另一個(gè)則是“VLM”。
正如其名,F(xiàn)astVLM最引人注目的特點(diǎn)就是“快”。這種快并非簡單的性能提升,而是數(shù)量級(jí)的飛躍,使其能夠在手機(jī)、電腦等個(gè)人設(shè)備上實(shí)現(xiàn)以往需要云端服務(wù)器才能完成的實(shí)時(shí)任務(wù)。

最直觀的體驗(yàn)是,在生成第一個(gè) token 的響應(yīng)速度(TTFT)上,FastVLM比同類模型LLaVA-OneVision-0.5B快了驚人的85倍,而其負(fù)責(zé)“看圖”的視覺編碼器規(guī)模卻縮小了3.4倍。即使是其更強(qiáng)大的7B(70億參數(shù))版本,在與近期備受關(guān)注的Cambrian-1-8B模型對(duì)比時(shí),性能更勝一籌,同時(shí)TTFT速度快了7.9倍。
FastVLM之所以能實(shí)現(xiàn)速度與性能的平衡,其技術(shù)核心在于一種新型的混合視覺編碼器 FastViTHD。從技術(shù)角度看,這種編碼器能夠輸出更少的 token,并顯著縮短高分辨率圖像的編碼時(shí)間。

圖注:FastVLM性能表現(xiàn)
傳統(tǒng)的視覺模型在處理一張高分辨率圖片時(shí),會(huì)將其分解成成千上萬個(gè)小塊(patches),然后將這些小塊轉(zhuǎn)化成“視覺詞匯”(tokens)交由語言模型解讀。圖片越清晰,細(xì)節(jié)越多,產(chǎn)生的tokens就越多,這會(huì)給后續(xù)的語言模型帶來巨大的計(jì)算壓力,導(dǎo)致處理速度變慢,尤其是在手機(jī)這樣的資源受限設(shè)備上。
而FastVLM的混合視覺編碼器則結(jié)合了兩種技術(shù)路徑,將卷積網(wǎng)絡(luò)和Transformer融合到了一起。從而,能夠在不犧牲關(guān)鍵視覺信息的前提下,輸出更少但更精華的 tokens。
因此,其作為VLM (視覺語言模型),它不僅快,理解圖像和文字的綜合能力也同樣出色,能夠在保證速度的同時(shí),維持極高的準(zhǔn)確性。

圖注:FastVLM架構(gòu)
目前,F(xiàn)astVLM 已經(jīng)上線多個(gè)尺寸,包括:0.5B、1.5B、7B版本:

憑借這樣的能力,F(xiàn)astVLM已經(jīng)可以支持無需任何云端服務(wù),端側(cè)的實(shí)時(shí)瀏覽器字幕等功能。
目前,HuggingFace平臺(tái)Apple開源FastVLM頁面已經(jīng)提供了試用平臺(tái)。鏈接如下:https://huggingface.co/spaces/akhaliq/FastVLM-7B
我們同樣上手體驗(yàn)了FastVLM的強(qiáng)大功能。我們選取了近期在社交媒體上廣為流傳的“馬斯克計(jì)劃將擎天柱(Optimus)機(jī)器人送上火星”的視頻作為測試材料。整個(gè)過程非常直觀,上傳視頻后,只需點(diǎn)擊左側(cè)的“Analyze Video”,分析就開始了:

FastVLM的處理速度確實(shí)令人印象深刻。我們粗略計(jì)時(shí)了下,單幀畫面的分析時(shí)間僅在1-2秒,甚至更短之間,系統(tǒng)在不到幾秒內(nèi)就完成了對(duì)8個(gè)關(guān)鍵幀的提取和解讀。
以下是FastVLM捕捉到的畫面及其生成的描述:

圖注:FastVLM捕捉的畫面
給出的結(jié)果則是:

我將生成的畫面分析結(jié)果翻譯成了中文:
第1幀: 一則 2026 年的火星廣告,展示了站在火星上的機(jī)器人。
第2幀: 一個(gè)大屏幕,上面顯示著一臺(tái)抬起一條腿的機(jī)器人,以及年份“2”。
第3幀: 一位穿著黑色印花T恤的男子手持麥克風(fēng)。
第4幀: 一群人正注視著屏幕,上面顯示“25 ton on”。
第5幀: 兩枚火箭立于紅色土壤之上,畫面上有“28 in”的水印。
第6幀: 觀眾正在觀看投影屏幕,上面顯示著火星上的 Qwen 機(jī)器人。
第7幀: 觀眾在觀看屏幕,播放的是電影《火星人玩轉(zhuǎn)地球》(Mars Attacks)的片段。
第8幀: 一群人正在參加星艦(Starship)活動(dòng)的演示。
最關(guān)鍵的是,你會(huì)發(fā)現(xiàn),F(xiàn)astVLM在追求極致速度的同時(shí),并沒有犧牲準(zhǔn)確性。經(jīng)過逐一比對(duì),我們發(fā)現(xiàn)生成的描述與每一幀的畫面內(nèi)容都比較吻合。
除此之外,蘋果同樣準(zhǔn)備了一個(gè)叫做FastVLM-Web GPU的項(xiàng)目,它可以通過攝像頭實(shí)時(shí)分析視頻流。你可以在下面這個(gè)位置找到它,點(diǎn)擊即可使用:

由于它的能力很強(qiáng),吸引了各路網(wǎng)友前來試用,也有X大神@GabRoXR搞出了很有趣的測試Demo。比如,通過設(shè)置一個(gè)OBS虛擬攝像頭,將其直接接入MetaQuest頭顯中,做一個(gè)實(shí)時(shí)字幕應(yīng)用:

值得注意的是,F(xiàn)astVLM對(duì)于本地設(shè)備的硬件能力要求非常低,比如,一個(gè)X網(wǎng)友@njgloyp4r僅通過Chrome瀏覽器和一塊RTX 3090顯卡,配合OBS虛擬相機(jī)及系統(tǒng)截圖工具,就能手搓出一個(gè)實(shí)時(shí)識(shí)別畫面的工作流:

盡管FastVLM相關(guān)文件在四個(gè)月前就已悄然現(xiàn)身GitHub,但此次在HuggingFace上的全面補(bǔ)齊,依舊引發(fā)了業(yè)界的廣泛關(guān)注和熱烈討論。
其次,F(xiàn)astVLM的開源并非一次孤立的技術(shù)展示,而是蘋果為其“端側(cè)AI”戰(zhàn)略精心打造的關(guān)鍵一環(huán)。與FastVLM一同引發(fā)關(guān)注的,還有蘋果最新開源的另一類兼顧低延遲與高準(zhǔn)確度的圖像-文本模型 MobileCLIP2。

圖注:MobileCLIP2 性能表現(xiàn)
其同樣專注于在移動(dòng)設(shè)備上實(shí)現(xiàn)低延遲與高準(zhǔn)確度的平衡,它通過“多模態(tài)強(qiáng)化訓(xùn)練”構(gòu)建,目標(biāo)是實(shí)現(xiàn)在移動(dòng)設(shè)備上快速響應(yīng),但仍保持優(yōu)良性能。
蘋果的“AB”計(jì)劃
在過去幾年洶涌的AI浪潮中,如果非要選一個(gè)“AI進(jìn)展異常緩慢”的科技巨頭的話,作為全球市值最高的科技公司的蘋果必然在一眾用戶和媒體人心中默默當(dāng)選。
當(dāng)其他幾乎所有科技巨頭都以前所未有的速度投身于大模型的軍備競賽時(shí),蘋果卻在其最關(guān)鍵的硬件業(yè)務(wù)與AI的融合方向上,表現(xiàn)出一種外界看來近乎“搖擺不定”的姿態(tài)。
從最初堅(jiān)持自研的神秘與沉默,到后來突然宣布與OpenAI合作、計(jì)劃將ChatGPT集成到其生態(tài)系統(tǒng)中,蘋果的每一步棋都精準(zhǔn)地踩在了媒體、投資者和用戶的“心窩”之上,表示“令人看不懂”,引發(fā)了無數(shù)的猜測與討論。
這種外界的疑慮在今年達(dá)到了頂峰。面對(duì)Google、Microsoft、Meta等競爭對(duì)手在生成式AI領(lǐng)域的狂飆突進(jìn),蘋果不可能在穩(wěn)坐釣魚臺(tái)了。尤其是在VR/AR的戰(zhàn)線上,蘋果Vision Pro雖技術(shù)驚艷但市場表現(xiàn)平平,面對(duì)Meta Quest系列的先發(fā)優(yōu)勢幾乎是慘淡收場。在至關(guān)重要的軟硬件AI結(jié)合上,相比其他幾家,蘋果更是慢到不行。

圖源:@Painfully Honest Tech
重壓之下,蘋果終于選擇正面回應(yīng)。
8月1日,蘋果CEO蒂姆·庫克罕見地召開了全員大會(huì)(allhands meeting),直接回應(yīng)AI挑戰(zhàn),這次會(huì)議不僅是庫克對(duì)過去一到兩年間蘋果AI進(jìn)展緩慢的一次正面回應(yīng),更像是一場重振軍心的“戰(zhàn)斗宣傳會(huì)”。庫克在會(huì)上明確表示,蘋果已經(jīng)在這方面投入了“巨額資金”,并將會(huì)推出一系列“令人興奮的”AI計(jì)劃。
緊隨其后,一則重磅消息流出,印證了庫克的決心:蘋果已經(jīng)內(nèi)部組建了一個(gè)名為AKI的團(tuán)隊(duì),目標(biāo)直指此前的合作伙伴也是業(yè)界標(biāo)桿的ChatGPT。
而為此類云端通用大模型打前哨戰(zhàn)的,則是蘋果在過去1年里不斷在小模型方向作出的努力。如果說,以云端大模型為代表的AI是蘋果的“A計(jì)劃”,追求的是無所不能的通用智能;那么蘋果則在“偷偷地”堅(jiān)定地推進(jìn)自己的“B計(jì)劃”—— 小模型計(jì)劃。
在過去的1到2年內(nèi)取得了大量實(shí)質(zhì)性進(jìn)展。然而,這些成果往往被外界有意無意地忽略了。究其原因,由于Scaling Law無數(shù)次被印證有效,AI圈子一直信奉“大力出奇跡“,所以對(duì)小模型的進(jìn)展常常并不在意。
2024年7月,蘋果就曾在 Hugging Face 上發(fā)布 DCLM-7B 開源模型,這款模型的發(fā)布,在專業(yè)圈層內(nèi)引起了不小的震動(dòng)。其性能已經(jīng)逼近、超越了當(dāng)時(shí)來自基礎(chǔ)模型廠商的一眾同級(jí)別同尺寸模型,像是Mistral-7B、Llama 3等等這說明,蘋果在小模型的技術(shù)積累上,并說不上落后。
在WWDC 2024上,蘋果宣布Apple Intelligence 并非一個(gè)單一的、龐大的云端模型,而是由多個(gè)功能強(qiáng)大、各司其職的AI小模型所組成的矩陣。這些模型經(jīng)過高度優(yōu)化,專門用于處理用戶的日常任務(wù),如整理郵件、潤色文稿、智能相冊搜索等。
當(dāng)全世界向云端大模型狂奔,蘋果選擇回歸設(shè)備
蘋果想要保住基本盤,就得在端側(cè)打AI反擊戰(zhàn)。
蘋果的商業(yè)帝國建立在三大基石之上:極致的用戶體驗(yàn)、無縫的軟硬件生態(tài),以及對(duì)用戶隱私近乎信仰的承諾。 這三大基石,共同決定了它的AI戰(zhàn)略幾乎必然走向端側(cè),走向小模型。
首先,隱私方面,蘋果在于外界云端AI基礎(chǔ)模型廠商的“互動(dòng)”中,總是顯得有些倉促應(yīng)對(duì),媒體關(guān)于接入外部AI能力的舉措,一直質(zhì)疑聲不斷。
比如,對(duì)于一個(gè)將“What happens on your iPhone, stays on your iPhone”(你的iPhone上發(fā)生的一切,只會(huì)留在你的iPhone上)作為核心營銷語的公司而言,把AI能力寄托于外部AI基礎(chǔ)模型廠商,被許多忠實(shí)用戶和科技評(píng)論員看來,甚至是一次“品牌背叛”。甚至有媒體稱”蘋果會(huì)保護(hù)你的隱私,而OpenAI則做不到“。

以至于蘋果后續(xù)不得不推出了AI時(shí)代的隱私保護(hù)“私有云計(jì)算”(Private Cloud Compute)等技術(shù),也難以在短時(shí)間內(nèi)完全打消市場的疑慮。
再把視線轉(zhuǎn)向國區(qū)。外界一直在猜:蘋果到底會(huì)牽手哪家本土 AI 基礎(chǔ)模型廠商?BAT、字節(jié),還是新晉的 DeepSeek?
最終,有消息稱百度或成為合作對(duì)象。但很快,路透社的一則報(bào)道把爭論推向高潮——蘋果與百度在隱私問題上出現(xiàn)了嚴(yán)重分歧。
百度希望留存并分析來自 iPhone 用戶的 AI 查詢數(shù)據(jù),而蘋果的嚴(yán)格隱私政策則一概禁止此類數(shù)據(jù)收集與分析。兩者在“用戶數(shù)據(jù)使用”方面產(chǎn)生明確分歧。

可以說,在數(shù)字時(shí)代,隱私是蘋果最鋒利的武器。而將AI計(jì)算盡可能留在設(shè)備端,是捍衛(wèi)這一承諾的關(guān)鍵技術(shù)路徑之一,尤其是圖像視頻模態(tài)數(shù)據(jù)。
你想找一張“去年夏天在海邊和狗玩的照片”。在端側(cè)AI模型上,這個(gè)搜索過程完全在你手機(jī)本地的芯片上完成。你的私人照片、地理位置、甚至你和誰在一起的這些高度敏感信息,從未離開你的設(shè)備,也從未上傳到蘋果的服務(wù)器。這與需要將照片(或其特征)上傳至云端進(jìn)行分析的方案,在隱私保護(hù)上有著極大的區(qū)別。對(duì)蘋果而言,選擇端側(cè)就能夠運(yùn)行的小模型,首先是一道“商業(yè)倫理題”,其次才是一道“技術(shù)選擇題”。這是對(duì)其商業(yè)模式的根本性鞏固。
除了隱私保護(hù)之外,用戶體驗(yàn)也是蘋果下大力氣集中攻堅(jiān)小模型的動(dòng)力之一。一直以來,蘋果產(chǎn)品的核心競爭力,在于“一旦用了,就難回到之前”的流暢體驗(yàn)。端側(cè)AI是實(shí)現(xiàn)這種極致體驗(yàn)的保障。
云端AI總會(huì)受到網(wǎng)絡(luò)狀況的制約,一個(gè)簡單的指令來回傳輸可能需要幾百毫秒甚至更久,這種“卡頓感”會(huì)瞬間打破沉浸式體驗(yàn)。用戶的設(shè)備可能在任何地方,比如信號(hào)不佳的地下室、萬米高空的飛機(jī)上、或是異國他鄉(xiāng)沒有漫游信號(hào)的角落。一個(gè)依賴網(wǎng)絡(luò)的AI功能,在這些場景下會(huì)立刻“失靈”,而端側(cè)AI則能保證核心智能“永遠(yuǎn)在線”。自第一代iPhone誕生以來,蘋果產(chǎn)品最深入人心的標(biāo)簽就是“可靠感”。用戶需要一種永遠(yuǎn)在線的“可靠感”。
其次,從性能表現(xiàn)來看,在公眾和部分業(yè)界的認(rèn)知中,大語言模型(LLM)的參數(shù)量似乎與“智能”程度直接掛鉤,形成了一種“越大越好”的普遍印象。然而,在實(shí)際應(yīng)用,尤其是在需要高度專業(yè)知識(shí)和精準(zhǔn)度的垂直細(xì)分場景中,這種看似無所不能的“通才”大模型,其表現(xiàn)卻不一定比經(jīng)過精細(xì)打磨的“專才”小模型更好。
最后,驅(qū)動(dòng)蘋果走向端側(cè)AI的,還有一筆深藏在硬件迭代背后的、必須算清楚的“經(jīng)濟(jì)賬”。近年來,一個(gè)讓用戶和評(píng)測機(jī)構(gòu)都普遍感受到的現(xiàn)象是,iPhone的A系列和Mac的M系列芯片性能越來越強(qiáng)大,其每一代之間的性能突破,常常讓用戶覺得“性能過剩”了。一邊是硬件算力近乎瘋狂地增長,另一邊卻是大多數(shù)用戶在日常應(yīng)用(如社交、視頻、游戲)中,無法體驗(yàn)到同等速率提升的感知。
如何有效吸收并轉(zhuǎn)化這種看似溢出的邊際性能,是蘋果必須解決的核心問題。如果計(jì)算任務(wù)分配到用戶自己的設(shè)備上,利用設(shè)備上本就強(qiáng)大的A系列/M系列芯片,對(duì)蘋果來說,是最經(jīng)濟(jì)、也最可持續(xù)的商業(yè)模式。
如果把視線從蘋果移開,會(huì)發(fā)現(xiàn)行業(yè)內(nèi)對(duì)小模型的興趣確實(shí)在普遍升溫。但這并不意味著所有公司都在追逐同一個(gè)目標(biāo),更準(zhǔn)確的理解是:不同公司基于其核心業(yè)務(wù)模式,對(duì)小模型有著截然不同的訴求。
像是被戲稱為AI廠商“軍火庫”的英偉達(dá)對(duì)小型語言模型的重視持續(xù)升級(jí),在其最新研究中認(rèn)為:小模型是 Agent 的未來。而眾多AI初創(chuàng)公司同樣開始選擇小模型,作為一種務(wù)實(shí)的某一小塊垂直市場的切入策略,像是美國醫(yī)療版ChatGPT —— OpenEvidence 等等。在通用能力上,它們難以與大廠的旗艦?zāi)P拖嗫购狻R虼耍鼈冞x擇專注于特定行業(yè),如醫(yī)療、金融、法律等,利用小模型易于在專業(yè)數(shù)據(jù)集上進(jìn)行微調(diào)的優(yōu)勢。
結(jié)尾:
放眼整個(gè)行業(yè),雖然對(duì)小模型的興趣正在升溫,但沒有哪家公司像蘋果一樣,將其提升到生死存亡的戰(zhàn)略高度。
過去幾年,當(dāng)ChatGPT橫空出世,當(dāng)微軟將Copilot融入全家桶,當(dāng)谷歌的Gemini迭代頻繁,整個(gè)科技行業(yè)以前所未有的速度沖向下一個(gè)時(shí)代時(shí),那個(gè)市值最高、手握最多現(xiàn)金的蘋果,卻像一個(gè)沒跟上進(jìn)度的差生,顯得異常沉默和遲緩。
可以說,面對(duì)這場AI差生危機(jī),蘋果的自救之路清晰而務(wù)實(shí):用“A計(jì)劃”補(bǔ)齊短板,避免被時(shí)代淘汰;同時(shí)用“B計(jì)劃”發(fā)揮長處,在自己最擅長的領(lǐng)域,即硬件端側(cè),打一場翻身仗。