site logo

Marico's space

我在 LLM API 调用上花了 50 美元,然后优化到 0 美元。

AI技术与应用 2026-05-20 20:55:49 8

最近折腾 AI 功能,踩了个烧钱的坑——LLM(大语言模型)API 调用的费用。两个月前我的账单突然飙到 50 美元,而我的项目才 100 来个人用。复盘了一下,发现问题不是订阅贵,而是 prompt(提示词)没优化到位。这篇把踩坑和优化思路说清楚。

那个 50 美元的月份

当时用 OpenAI API 做三个简单功能:

  • 用户名提取
  • 邮件主题生成
  • 简单分类

做了哪些改动

1. 优化 Prompt(提示词)

同模型,好 prompt 效果更好。结构清晰、带示例的 prompt 往往能替代更贵的模型。

改前:

Categorize this email: "{subject}"

改后:

Categorize this email into one of: [urgent, follow-up, spam, newsletter]
Example: "RE: Meeting at 3pm" → follow-up
Example: "Free iPhone!" → spam
Now categorize: "{subject}"

效果:同模型,token(令牌)用量减少 40%。

2. 简单任务切到本地模型

分类、提取这类简单任务,换成了:

  • Ollama + Llama 3.2:本地部署推理
  • Groq API(免费额度):线上生产环境用

两个方案处理简单结构化任务,成本接近零。

3. 全面缓存

重复问题直接走缓存。50 个用户问同一件事,一次 API 调用搞定。

# 简单的语义缓存
cache_key = hash(prompt + first_50_chars_of_context)
if cache.exists(cache_key): return cache.get(cache_key)

4. 按任务选模型

不是所有任务都需要 GPT-4o:

任务 模型 成本
简单分类 Groq(免费额度) $0
结构化提取 Ollama(本地) $0
长文本生成 GPT-4o mini $0.002/1K
复杂推理 Claude 3.5 Sonnet $0.003/1K

结果

优化之后:

  • API 账单从 50 美元/月 降到 8 美元/月
  • 响应速度反而快了(本地模型跑简单任务更迅速)
  • 缓存覆盖了 60% 的请求

想对当时的自己说什么

先用能跑通的最小模型。切模型之前先优化 prompt。增加调用量之前先加缓存。

50 美元/月的问题,通常是 5 美元/月就能解决的问题,只是你还没找到那个解法。

你最大的 AI API 支出是什么?有没有什么优化心得?

原文链接:https://dev.to/...