site logo

Marico's space

让 Agent 自己换头像:OpenClaw + Gemini + 飞书的踩坑实录

AI技术与应用 2026-04-27 15:07:58 1

最近折腾了一下 OpenClaw,把它玩出了点新花样——不是正经用法,就是觉得有意思想试试。

具体折腾的是:让一个专门负责画图的 Agent 打开浏览器、调用 Gemini 生成图片,然后另一个 Agent(我管它叫"HR 管理器")调用飞书(Feishu)API 把生成的图片设成群聊头像。两个 Agent 各干各的,一个画,一个换。全自动运行,我只需要看结果。听起来挺简单对吧?实际上花了得好几天才跑通。

为什么要搞这个

我有一堆飞书群,每个群对应不同的 Agent——有画图的、有搞 3D 打印的、有 HR 管理器、还有个专门写博客的"小博"。这些群本来都没有头像,看起来全都一个样,根本分不清谁是谁,丑得让人难受。想着挨个手动换吧,群里太多了懒得弄。于是灵机一动:让 Agent 自己去换头像。反正我有 Gemini(Google 的 AI 模型)的订阅,图片生成功能正好用上。

浏览器是第一道坎

要让画图 Agent 调用 Gemini 生成图片,首先得让它能控制浏览器。我之前用的是 Chrome,结果 Agent 和我抢同一个浏览器实例——它还没干完活,我不小心把它窗口关了;我要查个东西,它把我标签页关了。两个人互相捣乱,效率为零。

后来去社区看了下,别人推荐 Brave(同样是 Chromium 内核,开源,跟 Chrome 差别不大),我改用 Chrome,让 Agent 单独用 Brave,互不干扰。但光换浏览器还不够,还得配置一堆端口之类的参数,Agent 才能正常连接和控制浏览器。这个配置过程反反复复好几次才搞定。

这感觉就像教一个新来的实习生用公司电脑:你不能说"喏,电脑给你了"就完事,还得教他别乱关机、别拔网线、别把工作窗口关了。

让 Agent 操作浏览器才是真正的噩梦

浏览器搞定之后,终于可以让画图 Agent 通过 Gemini 生成图片了。结果第一次尝试完全翻车——连"生成图片"按钮都找不到。

找到按钮之后,又开始下错图片。Gemini 的页面会保留之前生成的图片,Agent 根本分不清哪张是新的哪张是旧的,特别自信地把旧图交上来,还以为自己做对了。

反复折腾了两三遍之后,终于能正确抓取图片了。整个过程就是:它做错了,我告诉它哪里错了;做对了,我把正确方法更新到它的 skill 文件里,下次不再犯。

跟教小孩一样,说一遍不行,说两遍不行,说到第三遍才记住。

正式跑起来

第一次成功之后,我给 HR Agent 设了个定时任务:每天晚上 11 点开始,每小时换一个群的头像(因为 GLM 的计划每天只有 5 小时额度,所以通常让 Agent 深夜跑任务,不影响白天的工作)。但现实总是没那么美好——HR Agent 动不动就发疯,不换头像,反而往群里发消息。这种情况我第二天才发现,然后再去纠正它、同时更新 skill 文件记录这个错误类型。

实际的工作流比我想的复杂:HR Agent 先扫描一遍有哪些群还没换过头像,然后把任务发给画图 Agent。但 HR Agent 不等画图 Agent 画完——而是下次轮询时拿走上一轮生成的头像。

经过反复纠错之后,成功率明显提升了,但离完美还差得远。基本上没有东西能一次就做对,全都需要持续调教。

说在最后

Agent 不是一蹴而就写出来的,是一点一点教出来的。

这件事说起来也没什么大不了的——就是换几个头像而已。但看着一个什么都不懂的小家伙慢慢变聪明,过程足够让人先骂几句娘,然后慢慢生出一点成就感。有耐心的话,其实挺有意思的。没耐心的话……可能还是别折腾这种玩法了。

原文:https://dev.to/mayf3/teaching-an-agent-to-generate-its-own-avatar-with-gemini-1ece