|
在上月底举办的 Galaxy S26 发布会上,三星和谷歌官宣将在 Galaxy S26 上首发基于 Gemini 的 Screen Automation(屏幕自动化)的才智。 简便来说,即是 Gemini 不错成功在手机屏幕上操作应用:掀开 APP、识别屏幕、点击滑动、输入翰墨……完成一连串 UI 操作,终末再把阐明步调交给用户。 ![]() 图片开端:三星 没错,听起来就和努比亚 M153(坊间俗称「豆包手机」)上的豆包手机助手一样,齐是能替代东谈主类在手机上进行「代理」操作,收场一句话点外卖、叫车、网购等需求。 从国外媒体和论坛的响应来看,这项功能终于在最近的测试版更新中上线了。 不外咱们也发现,并莫得全盘学习豆包手机助手的作念法。自然在时刻收场旅途上一样基于 GUI 的 Agent,但 Gemini 会基于 Android 开启一个腹地的捏造沙盒,同期还主动抑止了首批洞开 Gemini「操作」的 APP,仅限少数一批应用。 这种经管神志与国内厂商明显不太一样。以致不错对比字节的豆包手机助手和的千问,谷歌遴荐了一条看起来既激进、又保守的道路。 让 AI 操作系统,而不是接纳手机 只看功能名义,Gemini 的「屏幕自动化」很容易被结识为另一种「豆包手机助手」。它一样不错替你点外卖、叫车、下单,看起来也像一个能替东谈主操作手机的 AI 代理。 但如果把视角往下再挖一层,就会发现谷歌的决议其实完竣不是一趟事。 豆包手机助手的逻辑很简便:AI 读取屏幕像素,像东谈主眼一样识别按钮和输入框,然后模拟手辅导击。这种神志最大的优点即是通用——表面上任何 APP 齐能操作,因为 AI 看到的只是屏幕。 Gemini 明显更「保守」。在本质践诺任务时,Gemini 并不会成功在你的手机桌面上操作应用,而是会在 Android 系统里开启一个腹地的捏造沙盒窗口,让 AI 在这个环境里运行主张 APP。 统共这个词过程是可见的,用户不错随时远隔任务,也不错在职何一步接纳操作。 ![]() 图片开端:Android Central 简便来说,Gemini「屏幕自动化」在居品定位上并不是一个不错粗拙操控手机的全能代理,而是一个被系统严格赓续的自动化才智。 谷歌还主动抑止了第一批支撑自动化的应用数目。咫尺洞开的主若是打车、外卖和餐饮类就业,仅支撑 Lyft、Uber、GrubHub、DoorDash、Uber Eats 和星巴克。 也抑止了「用户范畴」。咫尺除了三星 Galaxy S26 系列照旧不错在测试版中体验,谷歌也仅接头了 Pixel 10 系列支撑,同期 Gemini 免用度户每天仅有 5 次使用额度、Plus 会员 12 次、Pro 会员 20 次、Ultra 会员 120 次。 这里既有算力的考量,也在于用户对 AI「乱动手机」的担忧,尤其是在泰西市集。是以谷歌作念了权限装扮、要道步调必须要用户手动操作、不错及时中断 AI 操作等。 但说到底,这只是过渡阶段,谷歌的贪心毫不啻是让 Gemini 只是能够操作几个特定 APP。 ![]() 图片开端:谷歌 许多东谈主留意到 Gemini 的 GUI 操作才智,却忽略了 Android 在系统层面正在发生的一件事情。 就在三星 Galaxy S26 系列发布会前夜,谷歌官方发布了一篇博文名为《智能操作系统:让 AI 代理对安卓应用更有匡助》,并厚爱推出了一套新的应用才智接口体系——AppFunctions,允许 APP 主动向系统声明我方不错被 AI 调用的功能。 举个例子,一个外卖 APP 不错告诉系统:支撑搜索餐厅、添加商品、提交订单这些才智。当用户对 Gemini 说「帮我点一份披萨」时,AI 并不一定需要缓缓点击界面,它不错成功调用这些才智完成任务。 如果把这套机制结识成 AI 的「函数调用」,银河国际游戏平台官网事情就变得特地清亮了。在谷歌的假想里,AI 代理其实有两条旅途不错践诺任务,一种是通过系统接口成功调用应用才智,另一种才是通过识别屏幕界面来进行 GUI 自动化。 前者效果更高、康健性更好;后者则是为了兼容那些莫得适配新接口的应用。 这意味着 Gemini 改日的开辟自动化才智,内容上并不是单纯的「AI 看屏幕操作手机」,而是一种系统 API 与 GUI 搀和的架构。
AppFunctions 的应用示例,图片开端:雷科技 这个各别听起来有点时刻化,但它背后的居品逻辑其实特地简便。比拟豆包手机助手让 AI 像东谈主一样使用手机,谷歌想作念的事情是让 AI 像系和谐样诊治应用。 当 AI 只是读取屏幕像素时,它长久站在系统除外,只可师法东谈主的操作逻辑;但一朝 AI 被放进操作系统里面,它就不错成功合作应用之间的才智。 从这个角度看,Gemini Screen Automation 的果然主张概况并不是点外卖、叫车这些场景。谷歌果然想开辟的,是一种新的 Android 运行逻辑和生态。从这里登程,咱们也能在一定进度上见识,为什么谷歌要和高通联手推动「安卓电脑」(非 Chromebook)。 也阐发了为什么 Gemini 的决议看起来既激进又保守。 激进的场地在于,它试图把 AI 形成 Android 的诊治中心;保守在于,谷歌并不贪图让 AI 粗拙接纳统共这个词手机,而是通过系统接口、权限抑止和应用白名单,一步一步鼓励这种变化。 比拟「全能 AI 代理」的想象,BET365体育官方网站这种道路明显更慢,也更克制。但关于一个领稀有十亿开辟的操作系统来说,谷歌可能也莫得太多激进试错的空间。 豆包向左,千问向右,Gemini 走中间 比拟谷歌在手机上的作念法,旧年底亮相的豆包手机助手遴荐了最简便、也最激进的一种神志:让 AI 像东谈主一样使用手机。 在这套决议里,AI 读取屏幕像素,识别按钮、输入框和页面结构,然后模拟手辅导击完成操作。无论是点外卖、比价购物如故下单支付,AI 齐是在手机界面上一步步践诺。 这种神志最大的上风即是通用。因为 AI 看到的只是屏幕,它不需要任何 APP 的接口支撑,也不需要平台授权。表面上,惟有是东谈主能操作的应用,AI 齐不错完成一样的操作。 这亦然为什么许多东谈主第一次体验豆包手机助手时,会认为它像一种「果然的 AI 手机」。 ![]() 图片开端:豆包 但问题也一样明显。当 AI 不错读取统共这个词屏幕并操作统共应用时,权限和安全问题就不成幸免。同期,许多互联网平台也并不迎接这种自动化当作,因为它绕过了平台自身的进口和保举体系。 简便说,豆包的道路时刻上特地成功,但也自然会和应用生态产生摩擦。 比拟之下,阿里的千问走的是另一条念念路,应用阿里我方的就业生态,让 AI 成为一个诊治中心。在这套体系里,用户的一句话会被拆解成具体任务,然后分裂调用淘宝、支付宝、高德、飞猪等就业来完成。 比如搜索商品、下单支付、接头道路,齐是成功调用真实业务才智,而不是模拟界面操作。因为统共操作齐发生在生态里面,AI 不需要绕过应用权限,也不会触发平台风控,又因为成功调用就业接口,践诺效果不时也更高。 ![]() 图片开端:雷科技 但问题一样清亮:生态鸿沟。千问能够诊治的就业,内容上如故阿里系应用。一朝用户需求涉偏激他平台,才智就会明显着落。 从这个角度看,豆包和千问其实代表了两种特地典型的 AI 代理旅途。前者试图让 AI 接纳手机本人,追求的是通用才智;后者则通过生态整合,让 AI 接纳就业历程,追求的是业务深度。 而谷歌的 Gemini,某种进度上站在二者之间。在现时阶段,Gemini 依然保留了 GUI 自动化才智,这意味着它在必要时也不错像豆包一样,通过识别界面来操作应用。但与此同期,谷歌又在 Android 系统里引入了新的应用才智接口,让 APP 主动向系统洞开不错被 AI 调用的功能。 如果应用支撑这些接口,Gemini 就不需要再缓缓点击界面,而是不错成功调用应用才智完成任务。换句话说,谷歌的决议其实是一种搀和旅途: 系统接口优先,GUI 自动化兜底。 从短期来看,这种神志明显莫得豆包那样惊艳,也不像千问那样能够赶快整合训导生态。但它的刚正在于,既幸免了和应用生态的正面突破,又保留了填塞的通用性。 开云体育官方网站首页写在终末 把视角再拉远极少,其实不难结识三种道路为什么会分化成咫尺这么。 字节莫得操作系统,也莫得腹地生存生态,是以只可让 AI 成功接纳手机;阿里领有宽阔的就业体系,于是让 AI 去诊治我方的业务收集;而谷歌果然领有的,则是 Android 这个消亡数十亿开辟的操作系统。 因此,Gemini 的主张从一运行就不是作念一个更强的手机助手,而是把 AI 形成系统的一部分,让 Android 从「运行应用的平台」徐徐形成「诊治应用的智能系统」。从这个角度看,Gemini 的克制并不是保守,而更像是一种平台级公司的势必遴荐。
|








备案号: