Agent 学习路径(入门到进阶)

学习背景

  • 基础:Python + Rust 高级后端、大数据开发

  • 环境:国内开发环境

  • 目标:构建复杂 Agent,覆盖面试常见问题

  • 时间:每天 1 小时


学习方式:对话迭代式

  1. 抛出问题或场景

  2. 提问、表达想法

  3. 讨论、补充知识点

  4. 理解到位后进入下一轮

  5. 偏离时拉回主线


阶段一:核心概念

第1轮:Agent 本质

  • 起点:Agent vs ChatBot 的区别

  • 探索:能力边界、核心组件

  • 面试问题

    • 什么是 Agent?和 ChatBot 的区别?

    • Agent 的核心组件有哪些?

第2轮:Agent 如何"行动"

  • Tool Use 原理

  • Function Calling 机制

  • 面试问题

    • Function Calling 的实现原理?

    • Agent 如何调用外部工具?

第3轮:Agent 如何"思考"

  • Planning、推理链

  • ReAct 架构

  • 面试问题

    • ReAct 是什么?工作原理?

    • CoT、ToT、GoT 区别?

第4轮:Agent 如何"记忆"

  • Memory 系统

  • RAG 基础

  • 面试问题

    • 短期记忆 vs 长期记忆?

    • RAG 和微调的区别?


阶段二:技术架构

单 Agent 架构

  • Agent 执行循环

  • 规划模块设计

  • 工具编排策略

  • 错误处理机制

  • 面试问题

    • 画出 Agent 架构图

    • 如何处理工具调用失败?

多 Agent 架构

  • 协作模式:Supervisor、层级、对等

  • 通信机制

  • 冲突解决

  • 面试问题

    • Multi-Agent 有哪些协作模式?

    • LangGraph vs AutoGen vs CrewAI?


阶段三:核心能力深入

RAG 进阶

  • Embedding 选择

  • 切分策略

  • 检索优化(混合检索、重排序)

  • 幻觉问题

  • 评估方法

  • 面试问题

    • 如何提高检索准确率?

    • 如何评估 RAG 系统效果?

Planning 与推理

  • Chain of Thought (CoT)

  • Tree of Thoughts (ToT)

  • 自我反思机制

  • 动态规划


阶段四:工程实践

生产环境考量

  • 成本优化(Token 消耗、缓存)

  • 延迟优化(流式输出)

  • 可观测性(日志、追踪)

  • 安全性(prompt injection 防护)

  • 评估体系

项目实战(选1-2个)

  1. SQL Agent:自然语言查询数据库

  2. 知识库问答:企业文档 RAG 系统

  3. 代码助手:代码生成 + 解释 + 调试

  4. 数据分析 Agent:自动生成分析报告


资源清单

国内可访问资源

类型

推荐

说明

LLM API

DeepSeek

国产最强,API 兼容 OpenAI

LLM API

通义千问

阿里云,文档齐全

向量数据库

Milvus

国产,性能强

Embedding

BGE / m3e

国产开源,中文效果好

学习资源

  • DeepSeek 开放平台文档

  • LangChain 中文教程

  • LlamaIndex 官方文档

  • 论文:ReAct、CoT、ToT

  • 开源项目:LangGraph、MetaGPT、Dify