Self-improving Agents
讨论 Self-improving Agents 的愿景与现实边界,涵盖技能库、Prompt 进化、人机反馈循环和可控改进机制。
Tag
#RLHF 标签文章合集,收录 Diors.tech 中与 RLHF 相关的 AI 学习笔记、技术拆解和工程实践。
2 篇文章讨论 Self-improving Agents 的愿景与现实边界,涵盖技能库、Prompt 进化、人机反馈循环和可控改进机制。
从预训练、微调、RLHF/DPO 到推理模型,拆解大语言模型能力形成路径,理解 Base Model、ChatGPT 与 reasoning model 的关系。