Claude Code 构建经验:为什么 Prompt Caching 是 Agent 的地基
基于 Claude Code 团队关于 prompt caching 的工程经验,拆解长任务 Agent 为什么必须围绕缓存来设计:静态前缀、工具集合、模型切换、compaction 和缓存命中率监控。
Category
工程与生产 专题文章合集,收录 Diors.tech 关于 工程与生产 的系统化 AI 学习笔记、工程实践与延伸阅读。
16 篇文章基于 Claude Code 团队关于 prompt caching 的工程经验,拆解长任务 Agent 为什么必须围绕缓存来设计:静态前缀、工具集合、模型切换、compaction 和缓存命中率监控。
基于 Claude Code 团队的工具设计经验,讨论 Agent harness 里最难的一件事:不是工具越多越好,而是给模型一个它真的会理解、会使用、会自我校正的行动空间。
基于 Claude Code 团队关于 Skills 的实践经验,梳理什么样的 skill 值得做、如何写出高信号密度的 skill、如何用文件系统和脚本做渐进披露,以及团队如何分发和衡量 skill。
Google A2A 在 2025-04-09 发布,2025-06-23 进入 Linux Foundation 治理,2026-03 发布 v1.0,2026-04 一周年时支持组织数已破 150。MCP 解决 Agent ↔ Tool,A2A 解决 Agent ↔ Agent,两者正在成为 Agent 基础设施的一对协议。
讨论 2026 Q2 软件开发的两条文化线:自然语言驱动的 vibe coding 与大公司推崇的 spec-driven development,以及团队该如何在速度和可维护性之间取舍。
横评 2026 H1 主流 Agent benchmark,包括 SWE-bench、OSWorld、WebArena、SWE-Lancer 与 GDPval,分析它们各自测什么、不测什么,以及刷榜见顶后的评估方向。
梳理 MCP 在 2026 Q2 的生态现状:主流主机支持、OAuth 2.1 PKCE、权限模型、第三方 server 可信度,以及企业部署 MCP 网关的关键问题。
用漏斗式视角理解 Eval Harness:工具选型、lm-eval 与 promptfoo 实战、自建四支柱、Flaky Eval 处理,以及与 Agent Harness 的关系。
AI 系统与传统软件的本质差异、分层架构设计、微服务 vs 单体、核心组件选型,以及从 MVP 到企业级的部署演进
推理延迟与成本是 AI 应用的两大痛点。Batching、KV Cache、量化、Speculative Decoding 等优化技术详解,以及 vLLM、TGI、TensorRT-LLM 等推理框架的工程取舍
Token 成本拆解、Prompt 优化、缓存策略、模型路由、Cascade 模式、自托管 vs API 成本分析,以及预算监控与告警
2026 年模型 landscape、评估维度、能力矩阵、场景映射、开源 vs 闭源、多模型策略,以及如何规避 vendor lock-in
为什么评估是 AI 工程最被低估的环节。Benchmark、离线评估、在线评估、LLM-as-judge、评估流水线与持续监控
AI 可观测性与传统 APM 的差异。Trace、指标、评估三支柱,关键指标定义,日志最佳实践,以及 LangSmith、Langfuse 等工具
AI 专属安全威胁:Prompt Injection、数据泄露、内容安全。防御策略、Guardrails、访问控制与 Red Teaming
Prompt 即代码:版本控制、测试、A/B、Registry、模板化。Prompt 生命周期与团队协作,以及 Humanloop、LangSmith Hub 等工具