AI 原生创业:别急着做产品,先重写公司的做事方式
基于 The founder's playbook: Building an AI-native startup 的读后整理。AI 原生创业不是给产品加一个模型,而是把问题验证、产品构建、销售交付和组织协作都按新杠杆重新设计。
97 entries
基于 The founder's playbook: Building an AI-native startup 的读后整理。AI 原生创业不是给产品加一个模型,而是把问题验证、产品构建、销售交付和组织协作都按新杠杆重新设计。
基于 Claude Code 团队关于 prompt caching 的工程经验,拆解长任务 Agent 为什么必须围绕缓存来设计:静态前缀、工具集合、模型切换、compaction 和缓存命中率监控。
基于 Claude Code 团队的工具设计经验,讨论 Agent harness 里最难的一件事:不是工具越多越好,而是给模型一个它真的会理解、会使用、会自我校正的行动空间。
基于 Claude Code 团队关于 Skills 的实践经验,梳理什么样的 skill 值得做、如何写出高信号密度的 skill、如何用文件系统和脚本做渐进披露,以及团队如何分发和衡量 skill。
从 Karpathy 的 LLM Wiki 模式出发,理解一种新的个人知识库做法:人负责选资料和提问题,LLM Agent 负责整理、交叉引用、更新和维护 Wiki。
手把手搭建 LLM Wiki 的第一版目录结构,讲清 raw、wiki、index、log、AGENTS.md 分别放什么,以及为什么一开始不要把结构设计得太复杂。
LLM Wiki 最关键的一篇:完整讲解 AGENTS.md 应该写什么,包括目录规则、页面模板、ingest、query、lint、引用、冲突处理和安全边界。
LLM Wiki 的第一个核心操作:如何把 raw 里的原始资料吸收到 wiki 里,生成 source summary、concept page、question page、synthesis,并更新 index 和 log。
LLM Wiki 的第二个核心操作:基于 index 和 wiki 页面提问,生成带依据的回答,并把有长期价值的比较、综述、问题和结论沉淀回知识库。
LLM Wiki 的第三个核心操作:检查孤岛页面、重复概念、缺引用、过时结论、冲突说法和 index/log 漏更新,让知识库越长越清楚。
如何用 Obsidian 承载 LLM Wiki:双链、Graph View、Web Clipper、附件、本地图片、Dataview 和 Marp,重点是让人能浏览,让 Agent 能维护。
LLM Wiki 是一堆 Markdown 文件,天然适合 Git。本文讲 commit、diff、branch、rollback、review 和 Agent 修改报告,让知识库可回滚、可审查、可长期维护。
LLM Wiki 一开始不需要向量数据库。本文讲从 index.md、ripgrep、Obsidian 搜索到 BM25 / vector / qmd 的渐进路线,以及什么时候该加搜索。
LLM Wiki 系列收官项目:选一个主题,收集 20 篇资料,完成 ingest、query、lint、Obsidian 浏览、Git 管理和搜索升级,最终形成一个可长期维护的知识库。
Perplexity Comet 已扩展到桌面和移动端,OpenAI ChatGPT Atlas、The Browser Company Dia 等产品也在重做浏览器入口。和「Chrome + 插件 + ChatGPT 标签页」不是一回事——AI-native browser 把 LLM 当一等公民,URL 退到次位。本文是这条新赛道的产品与功能切片。
梳理 2026 H1 AI for Science 三条主线:AlphaFold 3 与药物发现、材料生成模型、科学 Agent,讨论它们进入科研工作流后的机会和边界。
拆解 World Models 在 2026 H1 的进展,重点看 Genie 3、Project Genie 与可交互世界生成,解释它和视频生成、Robotics、Agent、游戏之间的关系。
2026 H1 是开放权重 / 开源 LLM 第一次在多个赛道逼近 frontier 闭源模型的半年。Llama 4、DeepSeek、Qwen、GLM、Gemma 等模型在 reasoning、coding、Agent、小型本地等维度形成分轨竞争。本文按六条赛道梳理现状,给出选型决策树与本地部署成本参考。
Google A2A 在 2025-04-09 发布,2025-06-23 进入 Linux Foundation 治理,2026-03 发布 v1.0,2026-04 一周年时支持组织数已破 150。MCP 解决 Agent ↔ Tool,A2A 解决 Agent ↔ Agent,两者正在成为 Agent 基础设施的一对协议。
讨论 2026 Q2 软件开发的两条文化线:自然语言驱动的 vibe coding 与大公司推崇的 spec-driven development,以及团队该如何在速度和可维护性之间取舍。
横评 2026 H1 主流 Agent benchmark,包括 SWE-bench、OSWorld、WebArena、SWE-Lancer 与 GDPval,分析它们各自测什么、不测什么,以及刷榜见顶后的评估方向。
视频生成到 2026 H1 已经跨过“只能看 demo”的阶段,但平台可用性变化很快:OpenAI Sora Web/App 已于 2026-04-26 停用,Sora 2 仍应按模型/API 能力而非消费级工作流来评估。本文梳理 Sora 2、Veo 3.1、Runway、Luma 的能力边界、适用场景、评估方法和现实限制。
实时语音 Agent 这条线已经从 ASR + LLM + TTS 的拼装方案,走向更完整的语音到语音系统。本文梳理其架构变化、工程难点、适用场景,以及它和 Computer Use / Hermes Agent 的关系。
梳理 MCP 在 2026 Q2 的生态现状:主流主机支持、OAuth 2.1 PKCE、权限模型、第三方 server 可信度,以及企业部署 MCP 网关的关键问题。
Mercury 2 在 2026 年 2 月把扩散语言模型推到 1000+ tokens/秒,成为第一个商用产线级的非自回归 LLM。LLaDA 也证明了 8B 扩散模型可以追上 LLaMA3 8B。本文拆解扩散 LLM 的工作原理、它和自回归 LLM 的根本区别、能用在哪、不能用在哪,以及它会不会颠覆 Transformer。
拆解 Computer Use Agent 如何用截图、视觉理解、鼠标键盘动作直接操作软件,对比 Function Calling Agent,并梳理 OSWorld、Claude、Operator 与 Manus 的工程取舍。
Nous Research 在 2026 年 2 月开源的 Hermes Agent 不到两个月就拿到接近十万 stars。它不是又一个 ReAct 包装器,而是一个把 skills、记忆、网关、模型路由全部塞进同一个进程的「常驻 Agent」。本文拆解它的架构、闭环学习机制,以及它为什么是 2026 上半年最值得关注的开源 Agent 项目。
2025–2026 最热概念:不只写好 prompt,而是系统编排进入模型的信息——组件、budget、质量与评估一次讲清
梳理 Chain-of-Thought 的演进:Zero-shot / Few-shot、结构化 CoT、ToT / GoT、推理模型内化,以及反直觉坑与实战选型。
跨会话记忆的三层架构、Letta/MemGPT 实战、Mem0 与 Zep 对比、图谱与向量混合、Memory as a Service 与隐私合规
验证链、Critic Agent、形式化与事实性验证、Constitutional AI、Guardrail 与成本权衡——从「好用」到「可信」
从 Copilot 到自主 Agent 的跃迁;Cursor、Devin、Windsurf、OpenHands、SWE-agent、Aider、Claude Code 对比;SWE-bench、架构循环与 Agent-Native 工作流
用漏斗式视角理解 Eval Harness:工具选型、lm-eval 与 promptfoo 实战、自建四支柱、Flaky Eval 处理,以及与 Agent Harness 的关系。
MoE、Reasoning Models、SSM、多模态原生——2026 年模型架构与前沿趋势全解析
从文本到视觉、音频、视频,梳理多模态 AI 的技术架构、训练思路、应用场景、产品机会与工程落地挑战。
ReAct、Reflexion、Voyager、CAMEL——Agent 学术研究的关键论文、Benchmark 与未来方向
从 AGI 时间线、基础设施演进、产业变化、社会影响到监管格局,多维度展望 AI 的中长期发展方向。
从定位、架构、使用场景到能力边界,理解 GitHub 热门开源个人 AI 助手 OpenClaw 的核心设计。
OpenClaw 快速上手指南:从安装、配置、启动到发送第一条消息,帮助你跑通个人 AI 助手的最小闭环。
深入理解 OpenClaw 的 Gateway、Pi Agent、WebSocket、会话模型与多端架构,建立二次开发所需的系统视角。
系统梳理 OpenClaw 中 WhatsApp、Telegram、Slack、Discord 等 20+ 消息频道的配置、路由和接入方式。
讲解 OpenClaw 的 Agent Runtime、Workspace、Skills、ClawHub 与聊天命令,理解个人 AI 助手的能力扩展机制。
Browser Control、Canvas、Nodes、Cron、Webhooks、Voice 与媒体管道
Docker、Podman、Remote Gateway、Tailscale、Nix 与云部署完整指南
梳理 OpenClaw 的安全模型与最佳实践,覆盖 DM Pairing、Sandbox、openclaw doctor、权限边界与生产部署清单。
mcporter 桥接、Plugin API、Memory 插件,以及 Skills / Plugins / MCP 的边界与选型
整理 OpenClaw 的实战案例与工作流,包括个人助理、开发协作、团队通知、家居自动化和内容创作场景。
梳理 OpenClaw 的社区贡献、长期愿景、路线优先级、不会合并的边界,以及个人 AI 助手生态的演进方向。
从对话式 UI、可控生成、信任设计到失败兜底,拆解 AI 产品交互设计的核心模式、反模式和落地原则。
系统对比 Copilot、Agent、Automation 三类 AI 产品模式,帮助团队判断产品形态、责任边界和演进路线。
拆解 AI 产品的增长逻辑,覆盖数据飞轮、网络效应、病毒传播、用户反馈循环和从功能价值到商业增长的路径。
从定价模型、单位经济、成本结构到价值锚点,系统理解 AI 产品商业化挑战与可持续收入路径。
当向量检索遇到知识图谱,Graph RAG 用实体、关系与图遍历补足纯向量 RAG 在多跳推理和结构化知识上的短板。
百万 token 上下文来了,RAG 还有必要吗?答案不是替代,而是分工:长上下文解决“能看多长”,RAG 解决“该看什么”
超越纯文本:当知识存在于 PDF、表格、图表、扫描件和图片中,多模态 RAG 如何重建检索与理解链路
RAG 好不好,不能只看答案像不像对:从检索、忠实度、引用、线上反馈到回归测试,建立一套真正能指导迭代的评测框架
从 Demo 到 Production,拆解生产级 RAG 的可靠性、可扩展性、可观测性、权限、评估与成本控制设计。
从定义、核心能力、和 Chatbot 的差异到真实案例,系统理解 AI Agent 的本质、边界和工程落地方式。
Planner、Executor、Memory、Tools 四大支柱如何协同,以及 Agent 循环与架构模式
Reasoning + Acting 如何交织、ReAct 循环的运作方式、优势与局限,以及实践中的实现要点
先规划再执行的两阶段架构、Replanning 机制、与 ReAct 的对比,以及 LangGraph 等实现方式
多 Agent 协作的通信模式、角色分工、编排策略,以及 CrewAI、AutoGen 等框架与实战考量
解释 Agent 为什么需要记忆,梳理短期记忆、长期记忆、用户档案、工具状态与 MemGPT 虚拟内存等实现策略。
讨论 Self-improving Agents 的愿景与现实边界,涵盖技能库、Prompt 进化、人机反馈循环和可控改进机制。
用图结构构建有状态的多步骤 Agent 工作流,讲清 LangGraph 的核心概念、节点边状态、设计模式与实战取舍。
回顾点燃 Agent 革命的 AutoGPT,分析它的架构、能力边界、失败原因、遗产与自主 Agent 的演进谱系。
介绍基于角色协作的多 Agent 框架 CrewAI,覆盖核心概念、任务编排、Flows 演进、适用场景与实战对比。
从单 Agent 到端到端流程,梳理文档、代码、数据、客服等 AI 工作流自动化场景,以及编排工具和监控要点。
AI 系统与传统软件的本质差异、分层架构设计、微服务 vs 单体、核心组件选型,以及从 MVP 到企业级的部署演进
推理延迟与成本是 AI 应用的两大痛点。Batching、KV Cache、量化、Speculative Decoding 等优化技术详解,以及 vLLM、TGI、TensorRT-LLM 等推理框架的工程取舍
Token 成本拆解、Prompt 优化、缓存策略、模型路由、Cascade 模式、自托管 vs API 成本分析,以及预算监控与告警
2026 年模型 landscape、评估维度、能力矩阵、场景映射、开源 vs 闭源、多模型策略,以及如何规避 vendor lock-in
为什么评估是 AI 工程最被低估的环节。Benchmark、离线评估、在线评估、LLM-as-judge、评估流水线与持续监控
AI 可观测性与传统 APM 的差异。Trace、指标、评估三支柱,关键指标定义,日志最佳实践,以及 LangSmith、Langfuse 等工具
AI 专属安全威胁:Prompt Injection、数据泄露、内容安全。防御策略、Guardrails、访问控制与 Red Teaming
从 AI-first 思维、任务重构、用户价值到概率性体验,系统掌握 AI 产品设计的方法论、边界与工程协同方式。
解释 Self-RAG 如何让模型自主决定何时检索、如何评估证据与回答质量,以及它相对传统固定检索管线的价值和边界。
当 LLM 开始主导检索流程:从固定管道到动态决策,理解 Agentic RAG 的能力、代价与工程边界
Bi-encoder 与 Cross-encoder 的取舍,两阶段检索模式,以及 Rerank 在 RAG 中的实战价值
Chunking 是 RAG 的基础:切太大引入噪声,切太小丢失上下文。本文详解各类切分策略与最佳实践
从知识截止、幻觉和私有数据三大痛点出发,理解 Retrieval-Augmented Generation 的本质与价值
拆解从 Query 到 Response 的完整 RAG 流水线,覆盖离线索引、在线查询、检索增强、上下文组装与回答生成。
为什么需要向量数据库、ANN 算法原理、主流产品对比,以及何时用专用向量 DB 何时用 pgvector
从文本到向量:Embedding 如何将语义编码成数字,以及 Cosine Similarity、主流模型与实战应用
Context Window 如何工作、对话记忆如何维护、RAG 如何扩展知识边界——LLM 记忆全景图
角色设定、Few-shot、指令设计、Chain-of-Thought——从零到写出高质量 Prompt 的完整指南
为什么 LLM 需要工具、Function Calling 与 Tool Use 的区别、MCP 协议,以及如何安全地让模型调用外部能力
从前端到模型层:AI 应用典型技术栈、各层职责、Orchestration 层详解,以及如何根据场景选架构
从结构化输出、模板管理、多轮状态到分层 System Prompt,讲清生产级 Prompt 系统如何设计、测试与维护。
综合 Prompt、RAG、Tool Calling,手把手搭建一个可运行的 AI 助手:系统设计、技术栈、代码结构、常见坑
从预训练、微调、RLHF/DPO 到推理模型,拆解大语言模型能力形成路径,理解 Base Model、ChatGPT 与 reasoning model 的关系。
系统讲解 Sparse、Dense、Hybrid 检索、多阶段召回、Query 变换与评估调优,帮助生产级 RAG 提升检索质量。
讲解 Agent 如何通过自我评估、批评、修正和 Reflexion 模式提升输出质量,以及 Reflection 的适用场景和局限。
Prompt 即代码:版本控制、测试、A/B、Registry、模板化。Prompt 生命周期与团队协作,以及 Humanloop、LangSmith Hub 等工具
介绍 OpenClaw 的 macOS、iOS、Android 与 Gateway 协议,理解多平台客户端如何协同个人 AI 助手。
从 Transformer 架构、Attention 机制、Token 预测到 Scaling Law,拆解 LLM 的底层运作逻辑
30+ AI 核心术语,一篇全搞定。不讲废话,每个词给你一句人话 + 原理 + 真实案例。读完你就能看懂大多数 AI 讨论。