概念区分 · 主流产品 · 选择建议
2025 年 5 月 · Powered by Hermes Agent
大语言模型(Large Language Model,LLM)本质上是一个「超级大脑」 —— 它读了海量的书籍、代码、网页,学会了理解和生成文字。可以把它想象成一个博学但被关在图书馆里的学者:什么都懂,但只能通过文字跟你交流,不能自己上网、不能操作电脑、也不能帮发微信。
举个例子:你问 ChatGPT「深圳今天天气怎么样?」,它能给一个基于训练数据的猜测,但不会真正去查天气网站。因为 LLM 只是一个「推理引擎」,没有执行动作的能力。
AI Agent(智能体)是 LLM + 工具 + 行动能力 的结合体。如果 LLM 是「大脑」,Agent 就是「有手有脚的人」—— 能思考,也能行动。
Agent 的核心循环:
LLM 是能「说」的模型,Agent 是能「做」的系统。LLM 提供智能,Agent 提供行动力。所有 Agent 都依赖 LLM,但不是所有 LLM 都能直接当 Agent 用。
所以 Gemini 是 LLM,不是 Agent。Codex 是 Agent。ChatGPT 基础版更像 LLM 聊天界面,但它的插件/GPTs 有部分 Agent 特性。
目前市面上的 Agent 主要分通用 Agent(什么都能干)和编码 Agent(专注写代码)。
| Agent 名称 | 开发者 | 定位 | 核心特点 | 开源 |
|---|---|---|---|---|
| Claude Code | Anthropic | 编码 CLI | 终端交互式编码;支持 Opus/Sonnet/Haiku;可在 Hermes 中作为子 Agent 调用;具备 PR Review 能力 | 闭源 |
| OpenAI Codex | OpenAI | 编码 CLI | 基于 GPT 模型;一键 exec 执行;支持全自主模式;可在 Hermes 中作为编码委托工具 | 开源 |
| Hermes Agent | Nous Research | 通用框架 | 支持 20+ 模型供应商;跨平台(微信/Discord/Telegram等);持久记忆;技能自我进化;定时任务 | 开源 |
| GitHub Copilot | Microsoft | IDE 编码助手 | 深度集成 VS Code / JetBrains;Agent Mode 自主编码;Coding+Chat 双模式 | 闭源 |
| Cursor | Cursor Inc. | AI IDE | 内置 Agent 模式;Composer 多文件编辑;可自主执行终端命令 | 部分 |
| Devin | Cognition AI | 自主编码 Agent | 全栈自主开发;自带浏览器/终端/编辑器;适合复杂多步骤项目 | 闭源 |
| Windsurf | Codeium | AI IDE | Cascade 流式自主编码;多文件上下文感知 | 部分 |
| Aider | 开源社区 | 编码 CLI | Git 原生集成;可接入任何 LLM;轻量级;地图式代码编辑 | 开源 |
读取项目代码 → 理解需求 → 修改文件 → 运行测试 → 提交 Git。在 Hermes 生态里,这些编码 Agent 都可以作为「子 Agent」被调遣。
不限于编码,可以做研究、数据分析、自动化任务、智能家居、内容创作。Hermes 的独特之处在于它的「技能系统」——完成任务的方法能存成技能,下次自动调用,越用越顺手。
以下按开发者分类,列出 2025 年最具影响力的大模型。它们是 Agent 的「大脑」,不同 Agent 可以搭载不同的模型。
| 模型名称 | 开发者 | 核心特点 | 开源 |
|---|---|---|---|
| GPT-4o / 4.1 | OpenAI | 多模态(文本+图像+音频);128K 上下文;函数调用强;推理速度快 | 闭源 |
| Claude 4 Sonnet/Opus | Anthropic | 200K 上下文;长文本理解出色;编码能力顶尖;支持思维链(thinking) | 闭源 |
| Gemini 2.5 Pro | 原生多模态;100 万 token 上下文(全球最长);深度推理能力 | 闭源 | |
| DeepSeek V3 / R1 | 深度求索 | 国产最强开源模型;R1 推理匹敌 o1;API 价格极低;支持 128K 上下文 | 开源 |
| Qwen 3 / Qwen-Max | 阿里 | 中文能力顶尖;开源+商用版本;覆盖 0.5B~235B 多规格 | 部分 |
| Llama 4 | Meta | 开源标杆;生态最丰富;社区微调版本众多;适合本地部署 | 开源 |
| Mistral Large 2 | Mistral AI | 欧洲最强开源模型;多语言;代码和推理出色;128K 上下文 | 开源 |
| Kimi K2 | 月之暗面 | 超长上下文(200 万字);中文理解和推理出色;适合长文档 | 闭源 |
| Grok 3 | xAI(马斯克) | 实时网络信息接入;推理模式(Think);幽默风格 | 闭源 |
| 混元 / 元宝 | 腾讯 | 中文生态深度整合;微信/元宝生态;多模态能力 | 闭源 |
| 混元 / 元宝 | 腾讯 | 中文生态深度整合;微信/元宝生态;多模态能力 | 闭源 |
| GLM-4 / ChatGLM | 智谱 AI | 国产老牌开源模型;Agent 工具调用出色;支持 128K;MaaS 平台完善 | 开源 |
| MiniMax / 海螺 | MiniMax(稀宇) | 超长上下文(400 万 token);语音合成出色;海螺 AI 产品体验好 | 闭源 |
单体 Agent
如 Claude Code、Codex —— 具体产品,自带模型、自带工具、开箱即用。像现成的特斯拉,买来就能开。
Agent 框架
如 Hermes、LangChain —— 模块化平台,让你接入任意模型、配置任意工具、搭建自己的 Agent。像造车平台,选发动机、配轮子、装导航。
纯 LLM 有先天局限:知识截止日期固定、不能实时获取信息、不能执行操作、没有长期记忆。Agent 通过工具调用突破知识边界,通过记忆系统跨会话保持上下文,通过技能系统不断进化。这就是为什么 2025 年被称为「Agent 元年」—— AI 从「聊天」进化到「办事」。
npm install -g @anthropic-ai/claude-code,输入 claude 即可curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash首选 Hermes。能接入 20+ 模型供应商,在微信/Discord/Slack 使用同一个 Agent,写技能让它自我进化,定时自动执行任务。
| 项目 | 官方网站 | GitHub | 文档/其他 |
|---|---|---|---|
| Hermes Agent | 官网 | GitHub | 文档 |
| Claude Code | 官网 | GitHub | CLI 参考 |
| OpenAI Codex | 介绍 | GitHub | README |
| GitHub Copilot | 官网 | - | 文档 |
| Cursor | 官网 | GitHub | 文档 |
| Devin | 官网 | - | 文档 |
| Windsurf | 官网 | - | 文档 |
| Aider | 官网 | GitHub | 文档 |
| 模型 | 官方入口 | GitHub | API / 文档 |
|---|---|---|---|
| GPT-4o | ChatGPT | - | API 文档 |
| Claude 4 | Claude | - | API 文档 |
| Gemini 2.5 | Gemini | - | API 文档 |
| DeepSeek V3/R1 | DeepSeek | GitHub | API 文档 |
| Qwen 3 | 通义千问 | GitHub | 百炼文档 |
| Llama 4 | 官网 | GitHub | 文档 |
| Mistral | 官网 | GitHub | 文档 |
| GLM-4 | 智谱清言 | GitHub | API 文档 |
| MiniMax | 海螺 AI | - | API 文档 |
| Kimi K2 | Kimi | - | API 文档 |
| Grok 3 | Grok | - | API 文档 |