14 - AI与大模型发展历程

从图灵测试到ChatGPT,理解AI应用开发所需的基础知识

一、AI发展简史

1950s — AI启蒙
图灵提出"图灵测试",达特茅斯会议确立"人工智能"概念
科学家们梦想让机器像人一样思考。最早的AI程序只能解数学题、下跳棋。
1980s — 专家系统时代
基于规则的专家系统流行,如MYCIN(医学诊断)
把人类专家的知识写成"If-Then"规则。问题:规则写不完,遇到新情况就傻了。
1997 — 深蓝击败国际象棋冠军
IBM深蓝通过暴力搜索+评估函数击败卡斯帕罗夫
本质是"算力暴力"而非"智能",但让世界看到了计算机的潜力。
2012 — 深度学习爆发
AlexNet在ImageNet图像识别比赛中大幅领先,深度学习时代开启
关键突破:GPU加速训练 + 大数据 + 更深的网络结构。神经网络从"学术玩具"变成"工业利器"。
2017 — Transformer架构诞生 里程碑
Google发表论文《Attention Is All You Need》,提出Transformer
核心创新:自注意力机制(Self-Attention)——让模型能"关注"输入中的所有位置,理解词语间的关系。这成了后来所有大模型的基础。
2018 — 预训练语言模型 里程碑
Google发布BERT,OpenAI发布GPT-1
两种路线:BERT是"双向理解"(适合分类/问答),GPT是"单向生成"(适合续写/对话)。后来的故事证明GPT路线更成功。
2020 — GPT-3震撼世界
1750亿参数的GPT-3展示了惊人的语言能力
"涌现能力"出现:模型大到一定程度后,突然获得了训练时没有明确教过的能力(如翻译、编程、推理)。这就是规模法则(Scaling Law)的威力。
2022.11 — ChatGPT发布 全民AI时代
OpenAI发布ChatGPT,两个月用户破1亿
关键技术:RLHF(人类反馈强化学习)——让模型的回答更符合人类期望。从此AI从实验室走向大众。
2023-2024 — 多模态与Agent时代
GPT-4V(视觉)、GPT-4o(全模态)、Claude、GLM-4、Qwen等百花齐放
AI不仅能读文字,还能看图、听音频、生成视频。AI Agent概念兴起——让AI自主使用工具完成复杂任务。这就是本项目诞生的时代背景。
2025-2026 — Agent与MCP协议
MCP(Model Context Protocol)标准化工具调用协议
AI从"问答工具"进化为"行动智能体"。Agent可以调用外部工具、操作文件、浏览网页。本项目的MCP客户端模块正是实现这一标准。

二、什么是LLM(大语言模型)?

通俗理解

LLM就像一个读过互联网上几乎所有文字的"超级学霸"。你给它一段话,它能预测下一个最可能出现的字(Token)。通过不断预测下一个字,它就能生成连贯的长文本。

技术原理(简化版)

LLM工作原理(简化):

  输入: "今天天气"
       │
       ▼
  ┌──────────────────────────────────────┐
  │           Transformer 模型           │
  │                                      │
  │  输入文本 → Token化 → Embedding     │
  │       │                              │
  │       ▼                              │
  │  ┌─────────────────────────┐         │
  │  │  多层Self-Attention     │         │
  │  │  · 每个词关注所有其他词 │         │
  │  │  · 学习词语间的关系     │         │
  │  │  · 层数越多理解越深     │         │
  │  │  (GPT-4: ~120层)       │         │
  │  └─────────────────────────┘         │
  │       │                              │
  │       ▼                              │
  │  概率分布: 下一个Token的概率         │
  │  "很": 0.3, "真": 0.2, "不": 0.15   │
  │  "好": 0.1, "啊": 0.08, ...         │
  └──────────────────────────────────────┘
       │ 选择概率最高的(或采样)
       ▼
  输出: "今天天气很"
       │ 继续循环...
       ▼
  "今天天气很好,适合出门散步。"

  关键概念:
  · Token: 文本的最小单位 (一个字或一个词)
  · 参数: 模型中的"神经元连接数" (GPT-4估计~1.8万亿)
  · 上下文窗口: 模型一次能看到的最大Token数 (GPT-4: 128K)
  · Temperature: 控制生成随机性 (0=确定性, 1=创造性)

三、国内外主流大模型对比

厂商模型特点本项目集成
OpenAIGPT-4o / GPT-4综合能力最强,多模态通过GPT4Free接入
AnthropicClaude Sonnet/Opus长文本理解优秀,安全AnthropicChatModelFactory
智谱AIGLM-5.1 / GLM-4中文能力强,性价比高ZhiPuAiChatModelFactory(主力)
阿里云Qwen-Max / Qwen-Plus多语言,企业级DashScopeChatModelFactory
MiniMaxM2.7 / M2.5语音/视频能力强MiniMaxChatModelFactory
DeepSeekDeepSeek-V3开源,推理能力强作为降级备选

四、AI应用开发的演进

AI应用开发四阶段:

  阶段1: 纯API调用 (2023年初)
  ──────────────────────────
  用户输入 → 调用LLM API → 返回结果
  · 简单包装ChatGPT API
  · 无记忆、无工具、无安全
  · 代表: 早期的AI聊天机器人

  阶段2: RAG增强 (2023年中)
  ──────────────────────────
  用户输入 → 检索知识库 → 上下文注入LLM → 回答
  · 解决LLM"不知道企业数据"的问题
  · 出现向量数据库、文档解析等基础设施
  · 代表: 知识库问答系统

  阶段3: Agent时代 (2024年)
  ──────────────────────────
  用户输入 → Agent理解意图 → 调用工具 → 多步推理 → 回答
  · AI能自主决定使用什么工具、执行多少步
  · ReAct推理模式成为主流
  · 代表: 本项目(Enterprise Agent Hub) ← 你在这里!

  阶段4: Multi-Agent (2025年+)
  ──────────────────────────
  复杂任务 → 多个Agent协作 → 子任务并行 → 综合结果
  · 多Agent并行执行、专业分工
  · 人机协同(HITL)、安全防护
  · 代表: 本项目的并行执行引擎 ← 你也在这里!

五、本项目涉及的核心AI概念

概念通俗解释项目中的体现
ReAct让AI"思考→行动→观察"循环Graph执行引擎的4节点ReAct拓扑
RAG让AI先"查资料"再回答6阶段RAG管线 + RRF融合
Agent有角色、有工具、能自主决策的AI17个内置Agent + 零配置注册
Tool UseAI调用外部工具的能力MCP协议 + Skill/Shell/NOS工具
Prompt Engineering设计好的提示词让AI表现更好系统提示词设计 + Hook系统
Embedding把文字变成数字向量,让AI理解语义向量存储 + Milvus语义搜索
Streaming边生成边输出,不用等全部完成SSE流式响应 + 飞书流式卡片
Few-shot给AI几个例子让它学会做简历评分模板、文案AIDA结构
HallucinationAI编造不存在的信息严格RAG模式 + 来源引用防止幻觉
TokenAI处理文字的最小单位Token预算管理 + TrackedChatModel统计

六、面试加分知识

Q: 为什么大模型会出现"涌现能力"?
A: 涌现能力(Emergent Abilities)是指模型参数量达到一定规模后,突然获得的能力(如数学推理、代码生成),这些能力在训练数据中没有明确标注。原因可能是:1) 参数足够多才能"记住"复杂的推理模式;2) 大规模数据中包含了隐含的推理链;3) 注意力机制在大模型中能捕获更长距离的依赖关系。这也是为什么本项目要支持多个LLM Provider——不同规模的模型适合不同的任务。
Q: 什么是Scaling Law?
A: Scaling Law(规模法则)是指:模型的性能与三个因素成正相关——参数量训练数据量计算量。简单说就是"越大越好"。但这带来了一个问题:推理成本也线性增长。这就是为什么本项目要实现密钥池管理和通道降级——在性能和成本之间找到平衡。