Published on

Learn Agent

Authors
  • Name
    Twitter

欢迎来到我的 AI Agent 学习记录!Agent(智能体)被认为是通往 AGI(通用人工智能)的重要一步。这篇文章旨在梳理一套系统性的 Agent 学习路线,并收集、整理我认为非常有价值的开源仓库和学习资料。

本篇博客会持续更新,记录我在这个领域的探索与发现,希望能为同行的开发者提供一张清晰的“知识地图”。


一、 什么是 AI Agent?

如果用一句话概括:LLM(大语言模型)+ 记忆 + 规划 + 工具使用能力 = AI Agent

为了便于理解,我们可以将 Agent 的架构与人类的核心能力进行类比:

核心组件人类能力比拟技术实现与功能说明
Brain (大脑)思考与决策核心控制器(如 GPT-5, Claude 4),负责理解指令、逻辑推理和任务规划。
Perception (感知)视觉与听觉接收多模态输入,如读取文本、识别图像内容、解析音频信息。
Memory (记忆)回忆与经验存储上下文信息。短期记忆维持当前对话连贯,长期记忆(如向量数据库)沉淀历史知识。
Tools/Actions (工具)手脚与行动执行具体动作,突破模型本身的限制,例如:搜索网络、执行代码、调用第三方 API。

二、 进阶式学习路线

为了避免在海量的概念中迷失,我将 Agent 的学习划分为三个递进阶段:

阶段 1:基础入门与核心概念

  • 核心目标: 搞懂 Agent 的底层逻辑,理解它与普通 ChatGPT 聊天的本质区别。
  • Prompt Engineering 进阶: 深入学习 ReAct (Reasoning and Acting) 模式,让模型学会“思考后行动”。
  • 能力边界探索: 了解当前大模型的幻觉问题以及上下文长度限制。

阶段 2:主流框架与单体实战

  • 核心目标: 能够使用现成框架,亲手搭建一个具备基础记忆和规划能力的单体 Agent。
  • 主流框架入门: 学习 LangChain 或 LlamaIndex 的核心模块流转。
  • 工具调用实战: 掌握 Function Calling / Tool Use 的具体代码实现方式。

阶段 3:多智能体协作与前沿探索

  • 核心目标: 突破单体限制,理解复杂任务的拆解与多领域的深度应用。
  • 多智能体框架: 接触 AutoGen、MetaGPT 或 CrewAI,探索 Agent 之间的辩论与协作。
  • 垂直领域深钻: 重点关注代码/开发领域 Agent(如辅助编码、自动化测试)。这是目前落地最快、价值最直接的方向。

三、 精选学习仓库与资料 (✨ 核心推荐)

这里是在实战与学习过程中筛选出的“宝藏仓库”,强烈建议 Fork 学习:

1. 基础入门:构建 Agent 的第一课

  • 项目名称: Hello Agents
  • 简介: 来自 Datawhale 社区的开源精品教程,以对新手极其友好著称。
  • 推荐理由: 它是极佳的 Agent 启蒙读物。仓库从零开始拆解概念,代码示例极度清晰,非常适合小白跟着一步步敲代码,跑通基础流程。

2. 垂直进阶:Claude Code 与代码 Agent

近期,以编程和代码为核心的 Agent 展现出了巨大潜力(尤其是 Claude 3 系列在代码生成上的卓越表现)。以下两个仓库是探索该领域的极佳资源:

  • 项目名称: Learn Claude Code
  • 推荐理由: shareAI-lab 出品,专注于教你如何榨干 Claude 的能力来处理代码任务,是一本系统学习“大模型+编程”的优质实战指南。
  • 项目名称: Everything Claude Code
  • 推荐理由: 这是一个大杂烩仓库,收录了丰富的 Claude Code 相关工具、项目和奇技淫巧。掌握基础后,来这里寻找灵感能极大提升你的开发效率。

四、 核心技术深度解析 (专题系列)

为了保持主路线图的简洁,我将 Agent 最核心的两个技术点抽离成了独立文章,点击下方链接可阅读详细的底层原理解析与实战代码:

🔗 [专题一:深度解析:AI Agent 如何像人一样拥有“记忆”?] (null)

  • 摘要: 探讨感官记忆、短期记忆(Context Window)与长期记忆的差异。深度解析 Embedding(向量嵌入)、向量数据库(如 Pinecone/Milvus)的应用,以及如何通过 RAG(检索增强生成)技术解决模型遗忘和记忆冲突。

🔗 [专题二:从“会聊”到“会做”:深入理解 Tool Calling 机制] (null)

  • 摘要: 详细拆解 ReAct (Reason + Act) 核心流程。探讨如何使用 JSON Schema 规范定义工具描述,如何处理 API 报错回调,以及在沙箱环境中执行代码工具的安全性考量。

五、 后续更新计划表 (TODO)

技术迭代太快,保持好奇,持续填坑:

  • 深入研究 AutoGen 多智能体对话与协作机制。
  • 抛弃 LangChain,尝试从零手搓一个极简的轻量级 Agent 核心调度器。
  • 探索完全本地化部署(如基于 Ollama + Llama 3)驱动 Agent 的可行性方案。

pi-momo