谷歌版“豆包手機”發佈,GUI路線會成爲主流嗎?

由 財經雜誌 發佈於 財經

'26-03-03

GUI路線與API路線解決的是不同場景下的不同問題,與其爭論孰優孰劣,行業應當着眼於合力推動將數據與隱私保護機制標準化、強制化的落地。

文丨樊朔

作爲AI能力落地的重要場景,手機智能體賽道正在湧入更多玩家。

2月26日凌晨,三星發佈了搭載了谷歌Gemini AI的最新Galaxy S26系列。在展示中,Gemini AI可以自動打開外賣應用、選擇餐廳訂購披薩、下單支付,也可以調用打車App完成設定目的地、自動叫車等操作。中興終端事業部總裁、努比亞總裁倪飛表示,三星與Gemini的組合,採用了GUI(圖形界面識別)技術。

事實上,Gemini AI展現出的能力並不新鮮。

就在三個月前,字節跳動豆包手機助手團隊聯合中興發佈了具有類似能力的努比亞M153,通過 GUI技術實現了幫助用戶跨越應用壁壘、像真人一樣操作手機的能力。

不過,豆包手機助手陷入爭議。有用戶反饋稱,豆包手機助手因調用“無障礙”及“屏幕共享”權限,觸發了一些App的通用風控策略,導致其賬號受限。對此,豆包方面緊急下線相關功能並協助解封,同時公開重申其操作合規、無隱私侵入,僅爲既定權限調用而非黑客行爲。

對於GUI路線,外界爭議最多是其調用了INJECT_EVENTS 權限,豆包手機助手團隊表示,已經在權限清單中進行了明確披露。據瞭解,INJECT_EVENTS 確實是系統級權限,但有更嚴格的使用限制,而且大多手機廠商的助手服務也都涉及調用該權限。擁有該權限許可,相關產品才能跨屏、跨應用來模擬點擊事件,完成用戶操作手機的任務需求。豆包手機助手需要用戶主動授權,纔可以調用該權限,使用操作手機功能。

豆包手機助手團隊同時表示,據他們瞭解,目前行業的AI助手,均需要使用該權限(或與其類似的無障礙權限)才能提供操作手機的服務。

目前來看,手機智能體主要分爲以豆包手機助手爲代表的GUI路線和以蘋果等廠商爲代表的API路線。

GUI路線是指,AI 利用多模態大模型對手機屏幕進行 OCR(文字識別)和佈局分析,理解界面上的每一個圖標和按鈕,並通過意圖推理規劃操作路徑,最終實現動作的執行。

API路線則更爲傳統,智能體廠商需要通過規範化的API接口調用App功能,從而完成任務,而非直接操作App界面。

在手機智能體賽道的火熱競爭之下,外界也在關注哪種技術路線可以在博弈中勝出。

香港科技大學計算機科學及工程學系副教授王帥表示,GUI路線與API路線解決的是不同場景下的不同問題,將兩者對立沒有太大的意義。從技術上來說,目前智能體不缺少保護數據與隱私安全的工具和手段,行業應當合力推動這些機制標準化、強制化的落地。

“與其把精力花在爭論哪條路線更危險,不如把力氣用在確保每條路線都能達到應有的安全水位上。”王帥說。

哪條路線是最優解?

王帥認爲,GUI路線有着三大優勢。

第一,適用範圍更廣。API路線成立的前提在於App開發者必須願意開放API接口。但在現實中,大量中小應用、長尾服務沒有標準化API,也沒有動力去做。相比之下,GUI路線對服務端的要求低很多。理論上只要有可交互的界面,就存在被感知和操作的可能,不用等生態裏各方慢慢談合作、定標準。對於緩解“生態孤島”問題而言,這條路會走得更快一些。

第二,透明度更高。GUI路線下,智能體的操作過程大部分都能映射在屏幕上,用戶可直觀地看到它在做什麼。這種“所見即所得”的模式,在建立用戶信任上有天然的好處。“坦率地講,黑箱操作誰都不太踏實,監管側對算法透明度的關注也在持續升溫。”王帥說。

第三,在生態層面,API 路線在發展過程中可能會比較容易演變成幾個大平臺主導的格局,在“接口誰來定”“數據往哪流”等問題上,話語權容易向頭部平臺集中。GUI 路線的接入門檻相對較低,“小而美”的服務也更有機會被智能體發現和調用,對維護多元競爭格局有正面的意義。

不過,王帥提醒,GUI路線的魯棒性、執行效率較低等老問題仍然存在。長遠來看,GUI路線和 API路線融合可能纔是更優解。不過,眼下 API 生態遠談不上成熟,GUI 路線提供的是一條務實的、能先跑起來的路,行業不妨多給它一些探索空間。

智能體已具備安全機制

對於引發公衆關注的隱私和安全問題,王帥認爲,公衆有顧慮很正常,但這些顧慮不應該綁定在某條技術路線上,而應該評估技術路線本身的機制。從技術和制度兩個維度看,目前保障用戶權利的工具箱其實已經相當充實。

王帥指出,從用戶控制來看,目前成熟的智能體方案基本都跑通了一條鏈路:事前——明確告知權限和隱私政策,讓用戶知情授權;事中——操作過程實時可見,在支付、登錄、籤協議等敏感節點,主動交還控制權給用戶;事後——完整的操作日誌隨時可查。

“這套設計的邏輯是,智能體是替你幹活的,不是替你做主的。”王帥說。

對於公衆關心的數據和隱私保護問題,王帥表示,《中華人民共和國個人信息保護法》規定了數據處理的兩大基本原則——數據最小化原則和目的限定原則。數據最小化原則是隻處理爲實現特定目的所必需的最少量的個人信息;目的限定原則是指處理個人信息應當具有明確、合理的目的,且處理活動應當與處理目的直接相關。

爲實現這兩項原則,智能體也有相應的工程手段,能在端側處理的就不上雲,必須用雲端處理的數據“用完即刪””,同時採用傳輸加密和信息脫敏技術,把數據暴露面壓到最小。

王帥介紹,隱私影響評估(PIA)、合規檢測等機制也爲智能體的運行提供了較爲嚴格的制度性保障。需要強調的是,無論 GUI還是 API,隱私保護與合規要求是所有技術路線都必須同等遵守的底線,不存在某條路線天然更安全或者某條技術路線更危險的問題。真正決定安全水平的,是開發者是否嚴格落實了已有機制。

Scroll to Top