- Published on
Learn Agent
- Authors
- Name
欢迎来到我的 AI Agent 学习记录!Agent(智能体)被认为是通往 AGI(通用人工智能)的重要一步。这篇文章旨在梳理一套系统性的 Agent 学习路线,并收集、整理我认为非常有价值的开源仓库和学习资料。
本篇博客会持续更新,记录我在这个领域的探索与发现,希望能为同行的开发者提供一张清晰的“知识地图”。
一、 什么是 AI Agent?
如果用一句话概括:LLM(大语言模型)+ 记忆 + 规划 + 工具使用能力 = AI Agent。
为了便于理解,我们可以将 Agent 的架构与人类的核心能力进行类比:
| 核心组件 | 人类能力比拟 | 技术实现与功能说明 |
|---|---|---|
| Brain (大脑) | 思考与决策 | 核心控制器(如 GPT-5, Claude 4),负责理解指令、逻辑推理和任务规划。 |
| Perception (感知) | 视觉与听觉 | 接收多模态输入,如读取文本、识别图像内容、解析音频信息。 |
| Memory (记忆) | 回忆与经验 | 存储上下文信息。短期记忆维持当前对话连贯,长期记忆(如向量数据库)沉淀历史知识。 |
| Tools/Actions (工具) | 手脚与行动 | 执行具体动作,突破模型本身的限制,例如:搜索网络、执行代码、调用第三方 API。 |
二、 进阶式学习路线
为了避免在海量的概念中迷失,我将 Agent 的学习划分为三个递进阶段:
阶段 1:基础入门与核心概念
- 核心目标: 搞懂 Agent 的底层逻辑,理解它与普通 ChatGPT 聊天的本质区别。
- Prompt Engineering 进阶: 深入学习 ReAct (Reasoning and Acting) 模式,让模型学会“思考后行动”。
- 能力边界探索: 了解当前大模型的幻觉问题以及上下文长度限制。
阶段 2:主流框架与单体实战
- 核心目标: 能够使用现成框架,亲手搭建一个具备基础记忆和规划能力的单体 Agent。
- 主流框架入门: 学习 LangChain 或 LlamaIndex 的核心模块流转。
- 工具调用实战: 掌握 Function Calling / Tool Use 的具体代码实现方式。
阶段 3:多智能体协作与前沿探索
- 核心目标: 突破单体限制,理解复杂任务的拆解与多领域的深度应用。
- 多智能体框架: 接触 AutoGen、MetaGPT 或 CrewAI,探索 Agent 之间的辩论与协作。
- 垂直领域深钻: 重点关注代码/开发领域 Agent(如辅助编码、自动化测试)。这是目前落地最快、价值最直接的方向。
三、 精选学习仓库与资料 (✨ 核心推荐)
这里是在实战与学习过程中筛选出的“宝藏仓库”,强烈建议 Fork 学习:
1. 基础入门:构建 Agent 的第一课
- 项目名称: Hello Agents
- 简介: 来自 Datawhale 社区的开源精品教程,以对新手极其友好著称。
- 推荐理由: 它是极佳的 Agent 启蒙读物。仓库从零开始拆解概念,代码示例极度清晰,非常适合小白跟着一步步敲代码,跑通基础流程。
2. 垂直进阶:Claude Code 与代码 Agent
近期,以编程和代码为核心的 Agent 展现出了巨大潜力(尤其是 Claude 3 系列在代码生成上的卓越表现)。以下两个仓库是探索该领域的极佳资源:
- 项目名称: Learn Claude Code
- 推荐理由: shareAI-lab 出品,专注于教你如何榨干 Claude 的能力来处理代码任务,是一本系统学习“大模型+编程”的优质实战指南。
- 项目名称: Everything Claude Code
- 推荐理由: 这是一个大杂烩仓库,收录了丰富的 Claude Code 相关工具、项目和奇技淫巧。掌握基础后,来这里寻找灵感能极大提升你的开发效率。
四、 核心技术深度解析 (专题系列)
为了保持主路线图的简洁,我将 Agent 最核心的两个技术点抽离成了独立文章,点击下方链接可阅读详细的底层原理解析与实战代码:
🔗 [专题一:深度解析:AI Agent 如何像人一样拥有“记忆”?] (null)
- 摘要: 探讨感官记忆、短期记忆(Context Window)与长期记忆的差异。深度解析 Embedding(向量嵌入)、向量数据库(如 Pinecone/Milvus)的应用,以及如何通过 RAG(检索增强生成)技术解决模型遗忘和记忆冲突。
🔗 [专题二:从“会聊”到“会做”:深入理解 Tool Calling 机制] (null)
- 摘要: 详细拆解 ReAct (Reason + Act) 核心流程。探讨如何使用 JSON Schema 规范定义工具描述,如何处理 API 报错回调,以及在沙箱环境中执行代码工具的安全性考量。
五、 后续更新计划表 (TODO)
技术迭代太快,保持好奇,持续填坑:
- 深入研究 AutoGen 多智能体对话与协作机制。
- 抛弃 LangChain,尝试从零手搓一个极简的轻量级 Agent 核心调度器。
- 探索完全本地化部署(如基于 Ollama + Llama 3)驱动 Agent 的可行性方案。
pi-momo