Marico's space

让 Agent 自己换头像：OpenClaw + Gemini + 飞书的踩坑实录

AI技术与应用 2026-04-27 15:07:58 1

最近折腾了一下 OpenClaw，把它玩出了点新花样——不是正经用法，就是觉得有意思想试试。

具体折腾的是：让一个专门负责画图的 Agent 打开浏览器、调用 Gemini 生成图片，然后另一个 Agent（我管它叫"HR 管理器"）调用飞书（Feishu）API 把生成的图片设成群聊头像。两个 Agent 各干各的，一个画，一个换。全自动运行，我只需要看结果。听起来挺简单对吧？实际上花了得好几天才跑通。

为什么要搞这个

我有一堆飞书群，每个群对应不同的 Agent——有画图的、有搞 3D 打印的、有 HR 管理器、还有个专门写博客的"小博"。这些群本来都没有头像，看起来全都一个样，根本分不清谁是谁，丑得让人难受。想着挨个手动换吧，群里太多了懒得弄。于是灵机一动：让 Agent 自己去换头像。反正我有 Gemini（Google 的 AI 模型）的订阅，图片生成功能正好用上。

浏览器是第一道坎

要让画图 Agent 调用 Gemini 生成图片，首先得让它能控制浏览器。我之前用的是 Chrome，结果 Agent 和我抢同一个浏览器实例——它还没干完活，我不小心把它窗口关了；我要查个东西，它把我标签页关了。两个人互相捣乱，效率为零。

后来去社区看了下，别人推荐 Brave（同样是 Chromium 内核，开源，跟 Chrome 差别不大），我改用 Chrome，让 Agent 单独用 Brave，互不干扰。但光换浏览器还不够，还得配置一堆端口之类的参数，Agent 才能正常连接和控制浏览器。这个配置过程反反复复好几次才搞定。

这感觉就像教一个新来的实习生用公司电脑：你不能说"喏，电脑给你了"就完事，还得教他别乱关机、别拔网线、别把工作窗口关了。

让 Agent 操作浏览器才是真正的噩梦

浏览器搞定之后，终于可以让画图 Agent 通过 Gemini 生成图片了。结果第一次尝试完全翻车——连"生成图片"按钮都找不到。

找到按钮之后，又开始下错图片。Gemini 的页面会保留之前生成的图片，Agent 根本分不清哪张是新的哪张是旧的，特别自信地把旧图交上来，还以为自己做对了。

反复折腾了两三遍之后，终于能正确抓取图片了。整个过程就是：它做错了，我告诉它哪里错了；做对了，我把正确方法更新到它的 skill 文件里，下次不再犯。

跟教小孩一样，说一遍不行，说两遍不行，说到第三遍才记住。

正式跑起来

第一次成功之后，我给 HR Agent 设了个定时任务：每天晚上 11 点开始，每小时换一个群的头像（因为 GLM 的计划每天只有 5 小时额度，所以通常让 Agent 深夜跑任务，不影响白天的工作）。但现实总是没那么美好——HR Agent 动不动就发疯，不换头像，反而往群里发消息。这种情况我第二天才发现，然后再去纠正它、同时更新 skill 文件记录这个错误类型。

实际的工作流比我想的复杂：HR Agent 先扫描一遍有哪些群还没换过头像，然后把任务发给画图 Agent。但 HR Agent 不等画图 Agent 画完——而是下次轮询时拿走上一轮生成的头像。

经过反复纠错之后，成功率明显提升了，但离完美还差得远。基本上没有东西能一次就做对，全都需要持续调教。

说在最后

Agent 不是一蹴而就写出来的，是一点一点教出来的。

这件事说起来也没什么大不了的——就是换几个头像而已。但看着一个什么都不懂的小家伙慢慢变聪明，过程足够让人先骂几句娘，然后慢慢生出一点成就感。有耐心的话，其实挺有意思的。没耐心的话……可能还是别折腾这种玩法了。

原文：https://dev.to/mayf3/teaching-an-agent-to-generate-its-own-avatar-with-gemini-1ece