Learn Agent

欢迎来到我的 AI Agent 学习记录！Agent（智能体）被认为是通往 AGI（通用人工智能）的重要一步。这篇文章旨在梳理一套系统性的 Agent 学习路线，并收集、整理我认为非常有价值的开源仓库和学习资料。

本篇博客会持续更新，记录我在这个领域的探索与发现，希望能为同行的开发者提供一张清晰的“知识地图”。

一、什么是 AI Agent？

如果用一句话概括：LLM（大语言模型）+ 记忆 + 规划 + 工具使用能力 = AI Agent。

为了便于理解，我们可以将 Agent 的架构与人类的核心能力进行类比：

核心组件	人类能力比拟	技术实现与功能说明
Brain (大脑)	思考与决策	核心控制器（如 GPT-5, Claude 4），负责理解指令、逻辑推理和任务规划。
Perception (感知)	视觉与听觉	接收多模态输入，如读取文本、识别图像内容、解析音频信息。
Memory (记忆)	回忆与经验	存储上下文信息。短期记忆维持当前对话连贯，长期记忆（如向量数据库）沉淀历史知识。
Tools/Actions (工具)	手脚与行动	执行具体动作，突破模型本身的限制，例如：搜索网络、执行代码、调用第三方 API。

为了避免在海量的概念中迷失，我将 Agent 的学习划分为三个递进阶段：

这里是在实战与学习过程中筛选出的“宝藏仓库”，强烈建议 Fork 学习：

近期，以编程和代码为核心的 Agent 展现出了巨大潜力（尤其是 Claude 3 系列在代码生成上的卓越表现）。以下两个仓库是探索该领域的极佳资源：

为了保持主路线图的简洁，我将 Agent 最核心的两个技术点抽离成了独立文章，点击下方链接可阅读详细的底层原理解析与实战代码：

摘要： 探讨感官记忆、短期记忆（Context Window）与长期记忆的差异。深度解析 Embedding（向量嵌入）、向量数据库（如 Pinecone/Milvus）的应用，以及如何通过 RAG（检索增强生成）技术解决模型遗忘和记忆冲突。

摘要： 详细拆解 ReAct (Reason + Act) 核心流程。探讨如何使用 JSON Schema 规范定义工具描述，如何处理 API 报错回调，以及在沙箱环境中执行代码工具的安全性考量。

技术迭代太快，保持好奇，持续填坑：

pi-momo