把 AI 作为我们日常生活、工作的 24 小时的搭子,现在 SOTA 模型的能力普遍高于大多数人,不管是创意类、写作类,甚至是编码类的工作都比很多人做的要好,很多模型的能力上限取决于使用人的上限,在这个 AI 的大时代,学会更好的向 AI 的提问与协作是一门需要持续学习的技能。
相同的工具在不同人手里作用效果都是不一样的。

当你有一个方向、问题或者研究领域需要从零开始,这个时候就可以使用 DeepResearch 开始。

DeepResearch 可以通过广泛的搜索帮你收集你想了解的问题的方方面面,可以加速我们初步上手、学习一门学科、研究一个方向的速度。可以帮你把搜索的所有相关的内容都标记上链接,方便你更深入的学习。
请协助我调研收集最近一年关于 GUI Agent 最新的进展:
目标: 全面梳理出现的重要论文、博客和模型,找出基于大规模语言/多模态模型的 GUI Agent 的(重点是移动端 Agent、Mobile Agent)最新 SOTA 模型。
具体需求
1. 收集文献与资料
• 每篇需提供:标题、发布时间、arXiv/DOI 链接地址、对应 GitHub 仓库(若有)或者来源。
2. SOTA 模型的实现与训练方法
• 对比当前 SOTA GUI Agent 的不同实现方案。
• 总结模型的训练方案(包括数据如何处理、真实环境或虚拟环境如何构建、训练过程以及算法解析等)
• 列出其在公认评测集如 AndroidWorld、ScreenSpotPro、ScreenSpot-v2、UI-I2E-Bench 等上的最新公开指标。
3. 创新点
• 概括工作的核心创新,总结梳理在体系结构、训练范式、提示工程、数据合成策略等方面的创新性。
4. 难点与挑战
• 归纳当前工作研究面临的关键技术瓶颈。
5. 最佳实践
• 给出工作的最佳实现 / 训练方案(含数据流水线、模型选择、强化学习或反馈机制)。
输出格式
• 建议使用分级标题和表格对关键信息进行汇总,便于检索与对比。
示例:收集与 GRPO 相关的资料

使用 DeepRsearch 需要注意的地方:

GPT

Gemini

deepresearch 结果示例
当模型帮你找到一堆学习资料,你觉得无从下手,这个时候就可以使用到模型的另一个能力,带你入门。
使用 NotebookLM 帮你拆解问题进行学习,可以生成思维导图、音频、视频、闪卡以及测试题。你可以上传各种格式的文件,网站、youtube 视频链接,甚至用提示词让它实时去搜索。