Path Unfold logo - AI-first Vibe Coding 社群
    小西瓜
    小西瓜内容创作者

    用 Gemini CLI 做 Sub-agent Skill:我的 Antigravity 升級了

    AIAntigravityGeminiagentvibe-coding

    最近在给家人整理这些年的各类医疗单据。

    几百张图片,医院的、体检的、门诊的,各种各样,混在手机相册里。想找某次检查的具体数值,翻半天翻不到。

    我决定用 Antigravity 把它们批量 OCR 识别,整理成可以查询的健康档案。

    任务布置出去,然后我去忙别的事。半小时后回来——进度条没动。

    不是报错。是悄悄卡死了。

    这让我想起最近发生的一件事情:

    Antigravity 占用 81.99 GB 内存被系统暂停 Antigravity 吃了 81.99 GB,电脑直接崩溃了!


    Antigravity 有一个很少有人说起的盲区

    先说背景。

    Antigravity 有一个内置的浏览器 sub-agent(子代理)——让它打开浏览器、做一些需要可视化交互的任务,可以用。

    但它没有通用 sub-agent 系统

    意思是:如果你想把一大块计算密集型的工作「委托」出去——让另一个 AI 独立思考、分析、推理、然后把结论交还给它——没有现成的框架。Antigravity 只能自己一步一步扛。

    这在大多数场景下没问题。但当任务体量上来,它的天花板就不只是「慢」了——它会开始吃内存、卡进程、超时报错:

    Antigravity 出现 TIMEOUT 和 Model quota reached 提示 一边 TIMEOUT,一边 Model quota reached。Antigravity 一个人扛太多,会这样。

    Shane Parrish 在 Clear Thinking 里写道:

    You don't need to be smarter than others to outperform them if you can out-position them.

    这句话放在 AI agent 架构上同样成立。问题不是 Antigravity 不够聪明,而是它的「位置」排布不对——它自己扛了本可以外包的部分。


    Gemini CLI:一行命令变成 Sub-agent

    解决方案出奇地简单:用 Gemini CLI 做 sub-agent(子代理)。

    Gemini CLI 终端启动界面 gemini --yolo,一个命令直接起来。

    Gemini CLI 支持 headless 模式(无界面运行),可以被脚本或 agent 直接调用:

    gemini -m gemini-3.1-pro-preview -p "你的问题" -o text 2>/dev/null
    

    一行命令,Antigravity 就可以「问」Gemini 任何问题,拿到纯文本的回答,然后继续自己的流程。

    更强的是,--resume 支持多轮对话——Gemini 会保留上下文,像真正的协作者一样:

    # 第一轮:分析
    gemini -p "帮我分析这些文件的关键信息" -o text 2>/dev/null
    
    # 第二轮:接着来
    gemini --resume latest -p "基于刚才的分析,给我生成摘要" -o text 2>/dev/null
    

    如果你想让 Gemini 自己去探索文件、运行命令,加 --yolo 旗标——它会获得自主行动的权限,真正做到「AI 指挥 AI」。

    还有一个很实用的点:Gemini CLI 用的是 Google OAuth(谷歌授权登录)。也就是说,如果你已经订阅了 Google One AI Ultra 或者 Gemini Code Assist,Gemini CLI 直接沿用同一个套餐,不需要额外付费。装好登录一次,就能用上完整的 Pro 模型能力。

    这种架构让我想到一个概念:Antigravity 是指挥,Gemini 是执行。指挥官不需要亲自搬砖。两者各司其职,系统的吞吐量就上来了。


    🔗 想和更多 AI 实践者交流? 加入我们的「用AI发电」社群,一起探索 AI agent 的实战用法 → member.pathunfold.com


    但还有一个问题:进程会卡死

    回到最开始的那个场景。

    批量处理几百个文件,循环调用 Gemini CLI,跑下来要好几个小时。

    问题是:Antigravity 开的后台进程,和终端 session 是绑定的。终端一旦超时或被系统回收,进程就悄悄消失——不报错,就是没了。

    你根本不知道它是在跑还是已经死了。(Fuck,我当时真的以为它跑完了哈哈。)

    解决方案:screen

    我让 Antigravity 自己分析这个问题——它把原因解释得很清楚:

    Antigravity 解释 screen -dmS 的原理 SIGHUP 信号是关键。screen -dmS 创建的 session 没有父进程,所以永远不会被杀掉。

    screen 是 Unix 自带的工具,可以创建与终端 session 完全解耦(decoupled)的持久进程:

    # 创建后台 screen session,跑批量脚本
    screen -dm -S ocr-batch bash -c "bash ./ocr_parallel.sh; exec bash"
    

    -dm 是 detached mode(分离模式)——创建后立刻放进后台,不占用当前终端。就算你关掉电脑、睡一觉醒来,进程还在跑。

    随时可以 attach(接入)进去看进度:

    screen -r ocr-batch
    

    用了 screen 之后,整批文件后台跑了几个小时,完美结束。零空文件,质检全部通过。


    真正出乎我意料的部分

    技术跑通之后,我开始翻生成的档案。

    每一份文件背后,都是一张原始单据。而当你把所有单据按时间排开,你开始看到一条隐藏的时间线。

    原来某个指标从好几年前就开始变化了。

    原来那次复诊是在这个背景下发生的。

    原来有些状况,我根本不知道。

    Why We Sleep 的时候有一段话让我印象很深:

    The discovery proved that sleep could potentially be used as a new early diagnostic litmus test.

    当时看完就觉得——很多指标的变化,其实比你意识到的要早得多。只是没有一个系统帮你追踪,所以你不知道。

    整理档案就是这种感觉。不是信息不存在——是它们从来没有被放在一起看过。当所有单据按时间排开,你才能看见那条隐藏的时间线。


    这个 Skill 帮你解决的三件事

    总结一下:

    1. 把计算密集型任务外包给 Gemini 大量文件、复杂分析——Antigravity 发指令,Gemini 去执行,你只需要拿结果。

    2. 解锁超大上下文窗口 Gemini 的上下文窗口极大。几百页文档、几百个文件,可以一次喂进去看全局,然后综合分析。

    3. 用 screen 让长任务真正跑完 批量处理、几小时脚本——screen 让进程和终端完全解耦。睡一觉回来,结果还在。


    你只需要跟 Antigravity 说:「用 Gemini CLI 帮我处理 [任务]。」

    它会自动判断是单次查询、多轮对话,还是 --yolo 模式。如果是长任务,screen 会自动管理进程。

    也许「第二大脑」不是一个 AI,而是你把几个 AI 配合起来用的那套方式。

    先装上认识一下它再说~


    「You don't need to be smarter than others to outperform them if you can out-position them.」 ——Shane Parrish,Clear Thinking

    (换个位置,比变聪明更有效。)


    🚀 「用AI发电」社群 — 一群用 AI 做实事的人,每月线上配对聊天、Office Hour、Mini-Hackathon,一起用 AI 搭建真实项目。

    👉 加入我们:member.pathunfold.com