Claude Code 构建经验:为什么 Prompt Caching 是 Agent 的地基
基于 Claude Code 团队关于 prompt caching 的工程经验,拆解长任务 Agent 为什么必须围绕缓存来设计:静态前缀、工具集合、模型切换、compaction 和缓存命中率监控。
Tag
#Agent 标签文章合集,收录 Diors.tech 中与 Agent 相关的 AI 学习笔记、技术拆解和工程实践。
38 篇文章基于 Claude Code 团队关于 prompt caching 的工程经验,拆解长任务 Agent 为什么必须围绕缓存来设计:静态前缀、工具集合、模型切换、compaction 和缓存命中率监控。
基于 Claude Code 团队的工具设计经验,讨论 Agent harness 里最难的一件事:不是工具越多越好,而是给模型一个它真的会理解、会使用、会自我校正的行动空间。
基于 Claude Code 团队关于 Skills 的实践经验,梳理什么样的 skill 值得做、如何写出高信号密度的 skill、如何用文件系统和脚本做渐进披露,以及团队如何分发和衡量 skill。
从 Karpathy 的 LLM Wiki 模式出发,理解一种新的个人知识库做法:人负责选资料和提问题,LLM Agent 负责整理、交叉引用、更新和维护 Wiki。
手把手搭建 LLM Wiki 的第一版目录结构,讲清 raw、wiki、index、log、AGENTS.md 分别放什么,以及为什么一开始不要把结构设计得太复杂。
LLM Wiki 最关键的一篇:完整讲解 AGENTS.md 应该写什么,包括目录规则、页面模板、ingest、query、lint、引用、冲突处理和安全边界。
LLM Wiki 的第一个核心操作:如何把 raw 里的原始资料吸收到 wiki 里,生成 source summary、concept page、question page、synthesis,并更新 index 和 log。
LLM Wiki 的第二个核心操作:基于 index 和 wiki 页面提问,生成带依据的回答,并把有长期价值的比较、综述、问题和结论沉淀回知识库。
LLM Wiki 的第三个核心操作:检查孤岛页面、重复概念、缺引用、过时结论、冲突说法和 index/log 漏更新,让知识库越长越清楚。
LLM Wiki 是一堆 Markdown 文件,天然适合 Git。本文讲 commit、diff、branch、rollback、review 和 Agent 修改报告,让知识库可回滚、可审查、可长期维护。
LLM Wiki 系列收官项目:选一个主题,收集 20 篇资料,完成 ingest、query、lint、Obsidian 浏览、Git 管理和搜索升级,最终形成一个可长期维护的知识库。
Perplexity Comet 已扩展到桌面和移动端,OpenAI ChatGPT Atlas、The Browser Company Dia 等产品也在重做浏览器入口。和「Chrome + 插件 + ChatGPT 标签页」不是一回事——AI-native browser 把 LLM 当一等公民,URL 退到次位。本文是这条新赛道的产品与功能切片。
讨论 2026 Q2 软件开发的两条文化线:自然语言驱动的 vibe coding 与大公司推崇的 spec-driven development,以及团队该如何在速度和可维护性之间取舍。
横评 2026 H1 主流 Agent benchmark,包括 SWE-bench、OSWorld、WebArena、SWE-Lancer 与 GDPval,分析它们各自测什么、不测什么,以及刷榜见顶后的评估方向。
梳理 MCP 在 2026 Q2 的生态现状:主流主机支持、OAuth 2.1 PKCE、权限模型、第三方 server 可信度,以及企业部署 MCP 网关的关键问题。
拆解 Computer Use Agent 如何用截图、视觉理解、鼠标键盘动作直接操作软件,对比 Function Calling Agent,并梳理 OSWorld、Claude、Operator 与 Manus 的工程取舍。
Nous Research 在 2026 年 2 月开源的 Hermes Agent 不到两个月就拿到接近十万 stars。它不是又一个 ReAct 包装器,而是一个把 skills、记忆、网关、模型路由全部塞进同一个进程的「常驻 Agent」。本文拆解它的架构、闭环学习机制,以及它为什么是 2026 上半年最值得关注的开源 Agent 项目。
2025–2026 最热概念:不只写好 prompt,而是系统编排进入模型的信息——组件、budget、质量与评估一次讲清
跨会话记忆的三层架构、Letta/MemGPT 实战、Mem0 与 Zep 对比、图谱与向量混合、Memory as a Service 与隐私合规
验证链、Critic Agent、形式化与事实性验证、Constitutional AI、Guardrail 与成本权衡——从「好用」到「可信」
从 Copilot 到自主 Agent 的跃迁;Cursor、Devin、Windsurf、OpenHands、SWE-agent、Aider、Claude Code 对比;SWE-bench、架构循环与 Agent-Native 工作流
ReAct、Reflexion、Voyager、CAMEL——Agent 学术研究的关键论文、Benchmark 与未来方向
讲解 OpenClaw 的 Agent Runtime、Workspace、Skills、ClawHub 与聊天命令,理解个人 AI 助手的能力扩展机制。
系统对比 Copilot、Agent、Automation 三类 AI 产品模式,帮助团队判断产品形态、责任边界和演进路线。
从定义、核心能力、和 Chatbot 的差异到真实案例,系统理解 AI Agent 的本质、边界和工程落地方式。
Planner、Executor、Memory、Tools 四大支柱如何协同,以及 Agent 循环与架构模式
Reasoning + Acting 如何交织、ReAct 循环的运作方式、优势与局限,以及实践中的实现要点
先规划再执行的两阶段架构、Replanning 机制、与 ReAct 的对比,以及 LangGraph 等实现方式
多 Agent 协作的通信模式、角色分工、编排策略,以及 CrewAI、AutoGen 等框架与实战考量
解释 Agent 为什么需要记忆,梳理短期记忆、长期记忆、用户档案、工具状态与 MemGPT 虚拟内存等实现策略。
讨论 Self-improving Agents 的愿景与现实边界,涵盖技能库、Prompt 进化、人机反馈循环和可控改进机制。
用图结构构建有状态的多步骤 Agent 工作流,讲清 LangGraph 的核心概念、节点边状态、设计模式与实战取舍。
回顾点燃 Agent 革命的 AutoGPT,分析它的架构、能力边界、失败原因、遗产与自主 Agent 的演进谱系。
介绍基于角色协作的多 Agent 框架 CrewAI,覆盖核心概念、任务编排、Flows 演进、适用场景与实战对比。
从单 Agent 到端到端流程,梳理文档、代码、数据、客服等 AI 工作流自动化场景,以及编排工具和监控要点。
为什么 LLM 需要工具、Function Calling 与 Tool Use 的区别、MCP 协议,以及如何安全地让模型调用外部能力
从前端到模型层:AI 应用典型技术栈、各层职责、Orchestration 层详解,以及如何根据场景选架构
讲解 Agent 如何通过自我评估、批评、修正和 Reflexion 模式提升输出质量,以及 Reflection 的适用场景和局限。