


當前全球AI競爭已進入產業生態構建與規則制定權爭奪的深層階段。爲促進新技術落地,應支持智能體的多種技術路線探索,在安全基礎上構建產業融合發展架構和全場景生態優勢
文|樊朔
3月5日,國務院總理李強向十四屆全國人大四次會議作政府工作報告。深化拓展“人工智能+”,促進新一代智能終端和智能體加快推廣,推動重點行業領域人工智能商業化規模化應用,培育智能原生新業態新模式。這也是智能體首次被寫入政府工作報告。
工信部部長李樂成亦在同一天的首場“部長通道”上介紹,工信部將立足場景優勢,做深行業應用,深度挖掘高價值應用場景,培育一批高水平典型應用,打造一批特色智能體。通過“找場景”來進一步深度挖掘傳統產業發展潛力,通過“造場景”激發新興產業、未來產業的創新活力。
作爲“人工智能+”落地的重要場景,國內外不少知名廠商已在競逐手機智能體賽道。
2025年12月1日,字節跳動聯合中興發佈了努比亞M153,其搭載的豆包手機助手通過GUI(圖形界面識別)技術實現了幫助用戶跨越應用壁壘、像真人一樣操作手機的能力。
2026年2月26日凌晨,三星發佈了搭載了谷歌Gemini AI的最新Galaxy S26系列。在展示中,Gemini AI可以自動打開外賣應用、選擇餐廳訂購披薩、下單支付,也可以調用打車App完成設定目的地、自動叫車等操作。
中興終端事業部總裁、努比亞總裁倪飛表示,三星與Gemini的組合,採用了GUI技術。
目前來看,手機智能體主要分爲以豆包手機助手爲代表的GUI路線和以蘋果等廠商爲代表的API路線。
GUI路線是指,AI 利用多模態大模型對手機屏幕進行 OCR(文字識別)和佈局分析,理解界面上的每一個圖標和按鈕,並通過意圖推理規劃操作路徑,最終實現動作的執行。
API路線則更爲傳統,智能體廠商需要通過規範化的API接口調用App功能,從而完成任務,而非直接操作App界面。
通常而言,兩條路線各有優劣:GUI路線通用性強、落地快,但面臨安全與隱私爭議;API路線精準高效、安全可控,但生態建設難度較大。出於不同側重點的考慮,當前行業內對於智能體發展存在路線之爭。
那麼,在推動人工智能技術加速落地的背景下,手機智能體的哪種技術路線可以勝出?中國智能體產業如何在國際競爭中佔據優勢?

GUI路線如何保證安全?
對於公衆而言,手機智能體具備強大的操作能力,因此對於AI助手接管手機後可能產生安全與隱私問題有所擔憂。
目前,對於基於GUI路線的手機智能體的爭議,主要圍繞其是否存在安全性隱患。此前有用戶反饋稱,豆包手機助手因調用“無障礙”及“屏幕共享”權限,觸發了一些App的通用風控策略,導致其賬號受限。對此,豆包手機助手團隊聲明稱,其權限調用經用戶主動授權且公開透明,是行業實現代辦功能的通用路徑。
中國政法大學教授、知識產權創新與競爭研究中心主任陶乾表示,GUI路線的核心特徵是基於視覺理解的智能體,相關操作是在用戶知情同意的前提下,由用戶主動發起並通過技術手段來實現。所以,這一過程可謂是用戶意志的技術實現機制。在用戶通過手機助手訪問第三方應用程序的情形下,該“訪問”行爲應被認定爲用戶行爲,具有合法性基礎。根據《個人信息保護法》,屏幕讀取和模擬操作應有用戶的明示同意,且僅限於完成任務所必需的範圍。
根據已披露的信息,豆包手機助手採用多種安全策略,以充分體現用戶意志。
包括事前授權——用戶首次打開豆包手機助手時,需同意隱私政策彈窗,明確告知敏感行爲及權限使用場景;操作手機功能前,會在對話框內詢問用戶是否允許,提供“單次允許”“始終允許”“拒絕”選項 。同時,鎖屏界面下喚醒豆包手機助手需通過人臉、聲紋或密碼的鑑權。
事中感知與控制——操作狀態可視化:AI執行任務時,通過“狀態欄膠囊”實時展示操作狀態(非虛擬屏場景),用戶可查看AI實時操作,確保操作過程可追溯;手動干預機制:支持雙擊虛擬屏手動介入操作、結束當前任務、修改需求等三種干預方式,避免錯誤執行;風險操作接管:當AI識別到高風險操作(如涉及支付密碼、隱私信息修改)或隱私安全場景時,會主動提示用戶點擊屏幕接管操作,降低風險。
事後管理——任務完成後主動呈現操作結果,用戶可隨時撤回操作權限、管理可操作應用範圍或清除聊天數據。
北京航空航天大學人工智能研究院教授沙磊認爲,從技術角度看,GUI路線完全有能力充分尊重並保護用戶隱私。
第一,確保所有操作均通過用戶授權,任務拆解及執行過程均向用戶展示,用戶可以實時感知並接管。
第二,對涉及的用戶數據在傳輸、存儲等處理過程中進行加密,對涉及的用戶個人信息採取脫敏或匿名化手段保護用戶隱私。
第三,企業可組織專業技術團隊開展PIA評估、隱私合規檢測等多重防護,降低用戶隱私泄漏風險。
此外,《個人信息保護法》也明確了數據最小化原則和目的限定原則,即只處理爲實現特定目的所必需的最少量的個人信息,處理個人信息應當具有明確、合理的目的,且處理活動應當與處理目的直接相關。
香港科技大學計算機科學及工程學系副教授王帥表示,爲實現數據最小化原則和目的限定原則,智能體也有相應的工程手段,能在端側處理的就不上雲,必須用雲端處理的數據“用完即刪”,同時採用傳輸加密和信息脫敏技術,把數據暴露面壓到最小。同時,隱私影響評估(PIA)、合規檢測等機制也爲智能體的運行提供了較爲嚴格的制度性保障。
“需要強調的是,無論是GUI還是API,隱私保護與合規要求是所有技術路線都必須同等遵守的底線,不存在某條路線天然更安全或者某條技術路線更危險的問題。真正決定安全水平的,是開發者是否嚴格落實了已有機制。”王帥說。
陶乾表示,沒有一種技術路線是絕對安全的。在用戶惡意誤導、誤操作、數據被惡意截獲或者模型被篡改等情形下,GUI路線的確會存在安全風險。但是任何技術路徑都會有風險,如果防範和處理得當,風險是可以避免的。

GUI路線必須“二次授權”?
有觀點認爲,用戶將手機操作權限授權給GUI-Agent,並不意味着它可以繞過App自身的風控和安全協議,因此需要第三方應用的“二次授權”。
北京師範大學法學院博士生導師、中國互聯網協會研究中心副主任吳沈括認爲,在中國現行法律框架下,GUI路線的手機智能助手在獲得用戶明確授權、爲用戶利益代理操作、遵循最小必要原則的前提下,訪問第三方應用具備合法基礎,其行爲屬於用戶自主意志的合理延伸。現行法律並未要求必須獲得第三方應用授權,相關行爲受到《網絡安全法》和《個人信息保護法》中關於用戶授權、合理使用相關規則的調整,具有明確的合法性依據。
因此,要求智能助手必須獲得第三方應用與用戶“雙重授權”的觀點在法律邏輯上不成立,也會阻礙技術創新與應用普及。用戶授權GUI-Agent執行模擬點擊與代理操作,是對自身設備使用權與數據訪問權的合法處分,已包含對第三方應用的合法訪問權限,屬於用戶意志的延伸,強行增設第三方應用授權門檻缺乏法律依據,也不符合技術發展規律。
中國社會科學院大學互聯網法治研究中心主任劉曉春表示,手機智能助手的一大特點是經過用戶授權後進行多平臺訪問操作。如果要求它訪問時都需要經過各平臺同意,可能會造成交易成本過高。如果平臺選擇拒絕授權,有可能會出現多個相對封閉的生態,各自內部使用不同的AI助手。這對手機智能助手的開發和應用推廣很可能難以形成開放競爭、促進創新的格局。
陶乾表示,任何新技術的出現,都是機遇與挑戰並存,發展與風險同在。在發展中防範風險,不能因爲風險的存在而“因噎廢食”,“不發展”其實是最大的“不安全”。
她認爲,在現有的法律框架下,《網絡安全法》《數據安全法》《個人信息保護法》《消費者權益保護法》《反不正當競爭法》等法律,以及《生成式人工智能服務管理暫行辦法》《互聯網信息服務算法推薦管理規定》等部門規章,均爲AI行業發展提供了合規指引。未來的監管規範需統籌AI發展和安全,以技術的不斷完善來降低風險,讓新一代智能終端、智能體等技術形態的應用不斷走向成熟。

GUI與API路線只能“二選一”?
針對行業內GUI與API的路線之爭,沙磊表示,GUI路線屬於科技創新範式。尤其是涉及多方服務協同的多重複雜任務時,GUI路線在當下可以有效幫助用戶在其授權範圍內實現生產力的解放和數據流通,同時還可以向用戶展示更豐富的能力和促使更多“小而美”的服務提供者獲得更多的行業資源,促進整體AI經濟的發展。
中國科學院軟件研究所研究員張立波認爲,未來人機交互或將邁向“賈維斯”模式,即用戶通過自然語言與智能助手交互,後者自主調用應用完成任務。這意味着應用界面可能大幅簡化甚至消失,轉而通過API與大模型助手深度集成。
然而,當前依賴標準化API的調用路徑受限於協議壁壘、商業博弈,以及合作模式制約,落地進展緩慢,短期內可能加劇生態割裂。因此,模擬用戶界面操作的GUI路徑憑藉其跨越技術門檻的優勢,成爲現階段聚焦複雜需求理解與多任務執行能力的務實選擇,使開發者能將有限資源集中於核心能力建設。
王帥則表示,GUI路線與API路線解決的是不同場景下的不同問題,將兩者對立沒有太大的意義。從技術上來說,目前智能體不缺少保護數據與隱私安全的工具和手段,行業應當合力推動這些機制標準化、強制化的落地。
王帥認爲,GUI路線有着三大優勢。
第一,適用範圍更廣。API路線成立的前提在於應用開發者必須願意開放API接口。但在現實中,大量中小應用、長尾服務沒有標準化API,也沒有動力去做。相比之下,GUI路線對服務端的要求低很多。理論上只要有可交互的界面,就存在被感知和操作的可能,不用等生態裏各方慢慢談合作、定標準。對於緩解“生態孤島”問題而言,這條路會走得更快一些。
第二,透明度更高。GUI路線下,智能體的操作過程大部分都能映射在屏幕上,用戶可直觀地看到它在做什麼。這種“所見即所得”的模式,在建立用戶信任上有天然的好處。
第三,在生態層面,API 路線在發展過程中可能會比較容易演變成幾個大平臺主導的格局,在“接口誰來定”“數據往哪流”等問題上,話語權容易向頭部平臺集中。GUI 路線的接入門檻相對較低,“小而美”的服務也更有機會被智能體發現和調用,對維護多元競爭格具有正面的意義。
不過,王帥提醒,GUI路線的魯棒性、執行效率較低等老問題仍然存在。長遠來看,GUI路線和API路線融合可能纔是更優解。不過,眼下 API 生態遠談不上成熟,GUI 路線提供的是一條務實的、能先跑起來的路,行業不妨多給它一些探索空間。
沙磊也指出,API和GUI路線並不是非此即彼。OpenAI、微軟等都有相關論文、產品DEMO來佐證其在GUI方向的探索。使用GUI路線有利於廠商搶佔規則制定的優先機會,利用其在生態中的主導地位形成既定事實,從而使其在AI競爭中佔據更有利地位。
北京理工大學公共管理系主任、粵港澳大灣區數字經濟與科技協同創新研究院副院長尹西明建議,業界應該對 API、GUI 等多條技術路線開展多元化探索,依託市場競爭與技術迭代實現科學擇優,推動技術生態健康發展。智能體是兼具社會價值的效率工具,代表了特定領域內的人工智能技術發展方向,在發展初期應包容創新、精準防控風險,爲技術創新留足空間,助力產業健康有序發展。

如何搶佔國際競爭先機?
從全球技術競爭與產業落地的視角看,移動端智能體已成爲AI與終端融合的核心賽道。
國際上,谷歌Gemini與三星的深度協同,通過大模型與硬件終端、操作系統的一體化整合,推動跨應用任務執行、場景化智能服務落地,形成“模型—終端—生態”的閉環範式,代表着全球智能終端的演進方向。這一趨勢表明,下一代移動生態的競爭,不再是單一硬件或軟件的比拼,而是系統級智能、全鏈路服務、普惠化應用的綜合較量。
對於這一趨勢,尹西明表示,隨着通用大模型技術的逐步成熟和性能優化,以手機智能體爲代表的終端AI智能體正在快速崛起和廣域滲透應用,成爲當下和未來全球AI發展的前沿熱點議題之一。站在“十五五”開局之年,需要充分認識到,新一代智能終端和智能體作爲人工智能與實體經濟深度融合的關鍵載體,將成爲打造智能經濟新業態、培育新動能的重要機會。
復旦大學中國研究院副研究員劉典認爲,當前全球AI競爭已從技術研發、產品落地,進入到產業生態構建與規則制定權爭奪的深層階段,三星與谷歌Gemini的系統級整合、歐盟鬆綁AI合規標準,本質上都是各國在AI新賽道的戰略卡位,核心是通過產業實踐主導全球規則制定。國內硬件廠商與大模型企業開展深度合作,走開放協同、安全可控、場景優先的產業路徑,既能與國際前沿趨勢同頻共振,又能構建符合本土需求的數字生態。
尹西明表示,終端智能體技術創新和產業發展正處於早期探索和不同技術路線競發的階段,國內外企業均在嘗試在實現用戶體驗和生產力提升方面探索可行方式,具體的技術路線呈現國內外差異化路徑:
其中,國內聚焦自主可控與場景落地,無論是在垂域場景任務理解還是基於用戶交互界面(GUI)或輕量級GUI的多模態能力,還是混合推理架構、端側人機交互和基於API的A2A(Agent to Agent)方面,都有技術部署和產品探索;而手機端創新以智能手機助手或智能體手機、智能眼鏡等爲代表的嵌入式智能體硬件則能夠實現設備內多應用調用、跨設備操作等功能,滿足C端小場景靈活使用和政務、企業私有化部署需求。
國外則以瀏覽器生態突破爲主,多智能體協同框架(AutoGen、CrewAI)成熟應用,兼顧靈活性和安全性的GUI+API混合路線也正在加速湧現。
劉典認爲,立足國內,應當抓住這一輪技術窗口,鼓勵自主可控的新技術、新產品加快場景化落地,以應用牽引創新、以市場驗證價值。以豆包手機助手爲代表的本土手機端智能體,正是AI技術從實驗室走向大衆生活的典型實踐。國內硬件廠商與大模型企業開展深度合作,走開放協同、安全可控、場景優先的產業路徑,既能與國際前沿趨勢同頻共振,又能構建符合本土需求的數字生態。
尹西明表示,中國在包括智能體在內的人工智能、具身智能、量子科技等領域具備先發優勢;超大規模市場、完整產業體系、豐富應用場景和人才紅利持續釋放。但挑戰同樣嚴峻,外部環境更趨複雜,單邊主義、技術封鎖加劇;國內則面臨有效需求不足、新舊動能轉換壓力大、部分產業鏈“卡脖子”等問題仍舊突出。
在他看來,智能體的未來不僅限於手機,還可能擴展到手環、眼鏡等其他終端形態,真正的突破將來自核心技術創新而非單一技術路線的選擇,因此,應該以包容試錯的態度支持多元技術路線探索和新產品新業態發展。一方面要避免押注單一技術路線可能帶來的“戰略踏空”風險;另一方面也要健全新技術新業態安全和風險治理體系,保障智能體產業行穩致遠。
中國科學院科技戰略諮詢研究院創新發展政策所所長眭紀剛也建議,當前人工智能行業仍處於發展初期,也是國際科技競爭的關鍵時期,各界對於新技術形態應予以包容的態度,而不是用過去的制度限制新技術的發展。智能體所代表的,不僅是一款產品的成功,更是一次技術範式的轉換。爲了促進新技術的發展,可以通過提升社會與經濟的適應性和韌性,鼓勵前沿領域多條技術路線的多元化發展,支持GUI、API、A2A等智能體多種技術路線探索,形成安全基礎上的多路徑並行探索、多路互補的技術創新和產品應用生態,避免過早陷入技術鎖定,才能建立起更具活力、更加廣泛的繁榮。




