site logo

Marico's space

最近折腾 PDF 处理,踩了几个坑。合并两个文件、把报告按章节拆开、压缩一个 40MB 的扫描件让它能塞进邮件——这些问题看起来都很 trivial,用个库就能解决。但一旦放到生产环境跑起来,每个都会变成你自己的问题。Forgelab 在 2026 年 5 月推出了一个 PDF API,就是赌你不想自己折腾这些破事。基础套餐 5 美元/月起。我研究了一下它的接口设计和定价策略,看看这个价格到底针对
你在聊天界面里输入"查一下上个月每个客户的总收入",一秒钟后,一条格式标准的 SQL 查询就出来了,针对的是你的 orders 和 customers 表。感觉就像变魔术一样。 但这不是魔术。一旦你理解了背后的机制——尤其是模型如何读取和解析你的数据库结构——你就能明白为什么有些文本转 SQL 工具偶尔能准确转换,其他时候却错得离谱,以及怎样才能提高准确率。 这篇文章深入分析了 LLM 驱动的
最近折腾了一下 Claude Code 的 Hooks 功能,踩了几个坑,这篇把问题说清楚。 说白了,Hooks 就是把"Agent 的偏好"变成"确定性工作流门禁"的机制。以前让大模型记住"不要执行危险命令"、"修改完文件要格式化",全靠 prompt 软约束。现在你可以挂脚本到生命周期事件上,让规则在每次事件触发时强制执行。 这事挺重要的——现在的编程 Agent 已经在真实仓库里跑了,能
最近折腾 AI 功能,踩了个烧钱的坑——LLM(大语言模型)API 调用的费用。两个月前我的账单突然飙到 50 美元,而我的项目才 100 来个人用。复盘了一下,发现问题不是订阅贵,而是 prompt(提示词)没优化到位。这篇把踩坑和优化思路说清楚。 那个 50 美元的月份 当时用 OpenAI API 做三个简单功能: * 用户名提取 * 邮件主题生成 * 简单分类 做了哪
前阵子把 Transformer 的整个数据流程从头到尾梳理了一遍,发现这玩意儿的设计比我想象中精巧得多。这篇文章就把从文本输入到模型输出的完整链路拆开来讲,配合具体例子,争取让没接触过 NLP 的后端也能搞懂 ChatGPT 这些大模型到底在"想"什么。 先说个背景。现在我们用 ChatGPT、通义千问这些对话模型时,本质上是在和一套序列预测算法打交道。人类说话是从想法到文字,而大模型走的是完
最近折腾了 Apify Actor 接入 Gmail API 这件事,踩了几个坑,这篇把问题说清楚。 如果你要做一个调用用户级 Google API(Gmail、日历、Drive)的 Apify Actor,想用最简单的认证方案让陌生用户直接上手,这就是你要的方案。 核心思路:用户把三个字符串 —— refresh_token、client_id、client_secret —— 填到 Act
最近折腾了一个叫 entropyx 的代码库分析工具,踩了几个坑才想清楚一件事:AI 时代给开发者工具写提示词是没用的,工具本身得是一份可执行的合同。 这篇文章把这个问题说清楚,顺便聊聊 entropyx 怎么实现这个思路的。 可执行文件就是接口:代理能发现、验证、信任的那种 AI 代理能读 README、扫描测试、检查源码树,然后推断出一个看起来合理的架构。但它还是可能把你的工具搞坏——
最近折腾了 AI-DLC(AI-Driven Development Life Cycle),踩了几个坑,这篇把问题说清楚。 先说结论:AI-DLC 是 AWS 出的一个基于规则的引导系统——不是工具,不是库——作用是把 AI 结对编程从"看心情 prompt"变成结构化的三阶段生命周期(Inception → Construction → Operations)。它跑在任何支持规则文件的 AI
最近供应链安全又出事了。2026年5月,一个叫Shai-Hulud的蠕虫病毒搞定了42个TanStack包,包括@tanstack/react-router——一个装在数百万个JavaScript项目里的库。从上线到被发现大概3个小时,够长了。如果你那天正好装了依赖,可能已经中招了。 这篇不是写给库维护者看的。是写给咱们这些普通开发者的——谁还没npm install过呢。 > "冷知识"1
最近折腾了 AI Agent 的安全防护,踩了几个坑,Shai-Hulud 这个开源蠕虫让我意识到问题比想象中严重得多,这篇把问题说清楚。 Shai-Hulud 蠕虫不是理论性的。它是一种自我复制的 AI 蠕虫,通过在 Agent 读取、处理和执行的内容中嵌入恶意提示来进行传播。研究人员已经演示了它的可行性。然后有人把源代码放出来了。 第二件事才是重点。构建一个可用的 AI 蠕虫不再需要复杂的
共 188 条, 共 19 页