a8体育老版本-通用免费下载

如果说前几年的大模型浪潮，让人第一次意识到机器会聊天，那么智能体带来的是一个更有冲击力的现实：机器会替人做事。

过去一年里，标志性的智能体产品大多生长在云端。像Manus、Claude这样的产品擅长规划任务、调用网页工具，但无法深入你的个人设备。

而端侧智能体走的是另一条路线：模型部署在本地设备，在手机、电脑、汽车里操作软件与系统。点外卖，打游戏，甚至炒股票。

越来越多智能体正在从云端落入个人终端。在海外，名为OpenClaw的智能体在硅谷技术圈走红，接管众多开发者的电脑；在国内，字节跳动把豆包嵌入手机，罕见地被微信、支付宝、美团、淘宝等App用安全弹窗拦在门外，引起激烈讨论。

互联互通的技术趋势，撞上了个人和平台的控制边界。想要操作手机，智能体需要拿到高敏感权限进行读屏和自动操作——这只“上帝之手”能拿到精确定位、读取短信与录音、安装应用，也为此设计了隐私栅栏。但问题是，我们是否真的准备好，把个人设备交给它了？

我们联合复旦大学张晓寒、云安全联盟王安宇和卜宋博，新一轮测评了豆包手机助手、智谱、荣耀、华为、小米、OPPO、vivo七款手机智能体，追踪它们的底层模型、系统权限、隐私设计最新情况。

以下是《万字详解智能体2.0：手机里的“互联互通”新战场》的节选部分。

去年12月1日，搭载了豆包手机助手的努比亚M153工程机发布，由字节跳动与中兴手机合作推出。它的核心逻辑是让 AI 像人一样操作手机，跨平台比价、点外卖、搜小红书做攻略、自动回微信，甚至替用户打《王者荣耀》，成为手机里的个人助手。

除了豆包手机助手，国内六家手机厂商都已经发布类似的手机智能体。它们几乎都采用了GUI Agent的“视觉识别路线”：大模型先像人眼一样读懂屏幕，再模拟点击操作手机。

但大模型只是智能体的“大脑”，还需要操作系统作为“手脚”。没有环境支持，GUI Agent的能力无法释放，二者缺一不可。

我们联合复旦大学系统与软件安全实验室张晓寒测评了努比亚（豆包手机）、荣耀、华为、vivo、OPPO、小米六台设备，发现几乎所有手机智能体的权限总量都超过100个。

张晓寒形容这是“一个惊人的数量级”。作为参照，即便是微信这类生态复杂的超级App，申请权限通常也不会超过100项。

很难说如此多权限，都是必要的。云安全联盟大中华区CTO王安宇曾负责多家手机的终端安全，他告诉我们，智能体如果想应对复杂的任务链条，例如“给我妈发个消息今晚不回家吃饭”，最简单的方式就是提前申请通讯录、短信等全套权限。虽然也有其他方式，但会频繁触发授权弹窗，影响使用流畅度。

比数量更值得关注的，是申请权限的内容。

测评显示，手机智能体申请的高敏感权限平均接近 40%，包括获取精确定位、读取短信与录音、静默安装应用等。张晓寒表示，普通 App 的高敏感权限占比通常控制在 30% 以下，而且获取位置等敏感数据，通常得按国家标准，单独弹窗提示用户。

四类权限（系统控制、屏幕控制与注入、窗口与显示管理、隐私数据访问）构成智能体接管手机的能力基石。这意味着，用户在使用手机智能体时，实质上是在运行一个默认拥有极高特权的程序，不能视为普通App。

这些高敏感权限服务于两个核心能力：读屏与自动操作。如何实现这两步，决定了风险的上限，因此需要更深入的分析。

在我们去年第一轮测评中，除了华为，所有手机智能体都采用了无障碍权限。它相当于一张万能门禁卡，可以绕过手机操作系统的沙箱隔离机制，进入每个App的独立房间，读取屏幕上的文本、按钮、标签。

经过一年进化，一些智能体走入了手机系统更深处。

技术测评结果显示，为了读屏，荣耀、小米和vivo的技术主路径是无障碍权限，而豆包和OPPO利用的是更底层的系统服务——豆包手机助手用到了一项名为WindowManagerService的系统服务，其截图依赖于CAPTURE_VIDEO_OUTPUT 和

CAPTURE_SECURE_VIDEO_OUTPUT 权限；OPPO的小布助手则通过SystemUI 等其他系统组件的相互调用，实现屏幕识别。

王安宇向我们解释了两者的差别：无障碍权限仍面临限制，打开时需要有系统弹窗，需要用户手动开启，而且无法直接读取银行密码键盘等Secure安全窗口。只要遵守这些安全栅栏，第三方App都可以合法调用。

与无障碍不同，系统框架没有单独的弹窗提示，可以直接获取像素级屏幕内容，并且能截屏到Secure安全窗口。因此，它只授予厂商级预装应用，不开放给第三方App。

针对利用系统框架截屏到Secure安全窗口的问题，豆包此前回应时解释，豆包手机助手使用了原生截屏接口（WindowManagerService），目的是为了在灵动岛向用户展示操作过程。针对此次测评，豆包回应《21世纪经济报道》称，

CAPTURE_SECURE_VIDEO_OUTPUT权限用于生成可视化虚拟操作界面，将助手的后台操作过程实时投射至虚拟屏（带有粉色光晕标识），确保用户全程可见。与此前回应一致。

在这一过程中，豆包强调自己“严格遵循应用声明的 Secure 标记，无法截屏银行安全键盘等声明受保护的界面内容”。

“‘严格遵循’是个有点讨巧的说法，技术上豆包是能够截屏Secure页面的，只是不一定会实际处理。”一位手机安全业内人士直言。

我们的技术测评也显示，豆包、OPPO具备截屏Secure窗口的能力，但会加入标志提示，由调用方判断下一步的处理方式。相当于可以无视外界的安全屏障，同时有自我约束。

在自动操作层面，权限升级同样明显。OPPO和vivo的技术主路径为利用无障碍权限模拟点击，豆包和荣耀申请了inject_events权限，小米两者都有涉及。

“inject_events相当于设备的完全控制权，能力范围远远超出无障碍权限。”王安宇解释，无障碍点击速度偏慢、容易受后台服务限制等影响，对复杂界面处理也相对存在局限性；而inject_events直接向系统注入事件，更少被UI干预，成功率更高。同样的，该权限只对厂商级预装应用开放。

更开放的系统权限是一把双刃剑，它让AI更智能，也让安全暴露在更大的风浪中。

智能体需要不断截屏、分析、传数据上云，其中不可避免接触好友动态、私信提示、广告内容等敏感信息。哪怕厂商承诺不存储这些信息，但在读取和处理的瞬间，隐私暴露的⻛险也是客观存在的。

多位从业者还共同提到了误操作的问题。如果指令被干扰或者理解错误，用户可能来不及退出，智能体就在几秒钟内完成连续操作了——这是一种更不可控的风险。

值得一提的是，无论是无障碍权限还是inject_event，系统方手机厂商都兼具“玩家”和“裁判员”双重身份。我们曾在此前的无障碍权限测评中发现，手机厂商的原生智能体调用了无障碍权限但未提示，或者任务结束后无障碍权限还保持打开，并未严格遵循安全规则。

“GUI Agent 最根本的问题还是权限太高了，本质是在代替用户操作。”西湖大学AGI实验室负责人张驰说，智能体要真正落地，一定需要限制，而且得在用户预期和实际能力之间找到共同点。

不能让用户以为什么都能做，实际上很多事做不到，也不该做。不确定性叠加高权限，本身就是一种风险。

给智能体套上透明的使用规范，因此是第一道防线。

在我们去年的测评中，手机智能体的调用还相当混乱：有的没有单独提示无障碍权限，有的任务结束后仍保持高权限开启。而今年的测评显示，各家提供者已经形成了较为一致的安全基线。

豆包、荣耀、OPPO已公开各自的AI隐私与安全白皮书。结合我们的测评结果，当前的安全设计主要集中在三个维度：知情与控制、操作透明度、数据传输策略。

在知情和控制上，差异最明显的是单独告知机制。虽然所有智能体都要求用户先同意《隐私政策》，但普通用户不一定明白AI如何操作、风险有多大。对此，只有小米和豆包在实际操作前，单独发送了“是否允许AI接管手机”的弹窗。

敏感操作的二次确认已成为行业共识，但哪些算敏感操作并不统一。大部分智能体只要求用户对支付二次确认，豆包则将发布内容、删除内容、退出账号等行为也纳为敏感操作，需要手动接管或确认。

OPPO在其领头撰写的安全技术白皮书提到，对于不同风险等级的行为，需要不同策略。OPPO建议的高风险操作有拼接验证码、安装App、删除或修改用户数据、发起支付和转账、保存敏感个人信息。

豆包在回应我们时提及，豆包手机助手采用了权限授权透明化、敏感操作人工接管、权限可控可调整等安全保障。

多位网络安全从业者向我们提到，AI操作日志留痕和权限记录很重要。云安全联盟分析师卜宋博解释，这是为了让AI的每⼀步操作有迹可循。比如“打开麦克风”“访问通讯录”等操作，应当像App权限一样可视化，才能做到事后追溯与监管。

测评显示，目前小米和华为的事后记录缺失。例如，使唤智能体需要调用手机麦克风，但在小米系统的麦克风权限使用记录中，没有出现小爱同学的痕迹。小米对此没有明确回复，只表示在第一次使用AI助手时，会事前征得调用麦克风的用户授权。

还有一种需要特别关注的隐私场景，是锁屏状态下的智能体表现。王安宇告诉我们，手机锁屏时会有网络限制，如果能语音唤醒智能体，说明其绕过了很多安全机制。假如手机落入第三方手中，智能体还可能成为绕过锁屏的“入侵”工具。

王安宇和卜宋博因此单独测试了锁屏场景，发现大多手机智能体都已经加上安全防护。只有小米默认屏幕显示详细的通知信息，并允许智能体播报出信息、网络状态、锁屏时间等。

“这是一个比较小的攻击面，毕竟现在手机都设计了声纹识别，要唤醒智能体，黑客还得知道机主的声纹特征才行。”多位技术安全专家说。不过他们也指出，作为收集数据更多、能力更强的AI，对危险场景的考虑应当更细致。

总的来说，参与测评的业内人士认为代码逻辑是安全的，行业也有一套基础安全护栏。但问题并没有到此结束。

目前所有手机智能体都需要用“端云协同模式”来处理数据，而数据上云是手机智能体最有争议的环节，并不让人意外。张晓寒向我们指出，过去常见有敏感信息的网络数据包被截取，或者没有严格加密传到云端，导致隐私泄露。数据安全可以说是整个手机安全体系中最核心、最脆弱的问题。

为了评估手机智能体数据上云的风险，多位技术专家进行了测评。结果显示，除了系统原生功能（闹钟、日历）外，大多数任务都会触发云端传输。

至于传输数据是否包含敏感信息，张晓寒告诉我们，五台手机均采用了较为完备的数据加密和保护方法，所以无法通过抓包验证。

张晓寒因此又尝试了黑盒测试，要求智能体“将当前屏幕展现的身份证照片转为吉卜力风格”。结果发现，所有智能体都能完成任务，且身份证号未被脱敏处理，这意味着敏感信息大概率被上传到了云端处理。

许多开发者已经在关注数据匿名化方案，试图让“上云”过程更安全。比如，阶跃星辰在技术报告中设想，云端的大模型不应该直接访问原始屏幕截图，而是接受本地GUI模型处理后的摘要。这些摘要仅包含完成任务所需的关键语义，不包含敏感的细节信息。

但愿景离现实还有很长距离。北京师范大学最新发布的一篇论文指出，现有GUI Agent的隐私识别能力很弱，只有13.3%的概率准确识别出安卓屏幕里的隐私信息。也就是说，智能体几乎意识不到自己正在看隐私，离合格的数据保护还很远。

“最大的担忧还是在这里，你在手机屏幕里看到的一切内容，理论上都会暴露给一个智能体。无论是加密还是直接传原始数据，最终一定程度上都是可以被还原的。”张驰说。

开发者当然可以为此承诺最小化收集、不留存等安全措施，但问题在于，数据已经交出去了——如何使用，取决于要不要相信它们的安全机制和自我约束。

隐私悖论曾在互联网时代反复上演，用户为了便利交出隐私，但难以控制它们究竟被如何利用。手机智能体的风险更大，因为它不再针对单个App，而是整合全景数据。这既是技术难题，也是信任拷问。

测评7个手机智能体：点一杯奶茶，意味着交付40%高敏权限

即时新闻

要闻推荐

热点专题

精彩视频

精彩图集