Tag

#RLHF

#RLHF 标签文章合集，收录 Diors.tech 中与 RLHF 相关的 AI 学习笔记、技术拆解和工程实践。

2 篇文章

Self-improving Agents

讨论 Self-improving Agents 的愿景与现实边界，涵盖技能库、Prompt 进化、人机反馈循环和可控改进机制。

从预训练、微调、RLHF/DPO 到推理模型，拆解大语言模型能力形成路径，理解 Base Model、ChatGPT 与 reasoning model 的关系。