2025 年上半年,开源大模型赛道持续升温。多个头部团队相继发布参数规模在 700B 以上的新模型,推理效率较去年同期提升显著。
三大趋势
端侧部署普及
4B 以下的小模型在手机、边缘设备上的落地场景快速增多。量化技术的成熟让普通消费级 GPU 也能流畅运行 7B 模型。
具体来看:
- 手机端:苹果的 Core ML 和高通的 AI Engine 都在加速适配小模型,Llama 3.2 3B 在 iPhone 15 Pro 上可以实现每秒 30+ token 的生成速度
- 边缘设备:NVIDIA Jetson、树莓派 5 等设备跑 7B 模型已经不是新鲜事,量化到 4-bit 后内存占用可以控制在 4GB 以内
- 桌面端:Ollama、LM Studio 等工具让本地部署变得极其简单,一行命令就能跑起来
这个趋势的意义在于:很多对延迟敏感、对隐私要求高的场景(如医疗问诊、企业内部知识库)不再需要把数据送到云端。
多模态能力标配化
图文理解已成为主流开源模型的基础能力,视频理解正在跟进。以前需要专门的视觉模型,现在一个通用模型就能搞定。
几个关键进展:
- 图文理解:Llama 3.2 Vision、Qwen2.5-VL 等模型在图表理解、OCR、文档解析等任务上已经接近商业 API 的水平
- 视频理解:虽然还处于早期,但已经出现了可以处理短视频(30 秒以内)并回答问题的开源模型
- 音频理解:Whisper 的后继者们在语音识别和理解上持续进步,多语言支持越来越好
- 跨模态生成:文生图领域 Stable Diffusion 3 和 FLUX 系列开源后,图片生成的质量和可控性有了质的飞跃
多模态能力的普及意味着开发者可以用一个模型处理多种类型的数据,降低了应用架构的复杂度。
工具调用成熟度提升
多个模型在 BFCL 等基准上接近或超越闭源模型,Agent 应用的可靠性有了实质性进步。
工具调用(Function Calling)是大模型走向实际应用的关键能力。2025 年的变化包括:
- 标准化:OpenAI 定义的 function calling 格式已经成为事实标准,主流开源模型都支持
- 准确率提升:在 Berkeley Function Calling Leaderboard 上,开源模型的最佳成绩已经非常接近 GPT-4
- 复杂调用:从单步调用发展到多步调用、嵌套调用、并行调用,模型可以完成更复杂的任务链
- MCP 协议:Anthropic 推出的 Model Context Protocol 为工具调用提供了统一的接口规范,生态正在快速建立
值得关注的模型
Llama 系列
Meta 持续更新,生态最完善,微调资源最多。Llama 3.1 提供了 8B、70B、405B 三个规格,覆盖从端侧到云端的完整需求。Hugging Face 上的衍生模型超过 10 万个,社区活跃度无人能及。
优势:社区大、资源多、微调工具链成熟。 劣势:中文能力相对弱于 Qwen,大规格模型的推理成本高。
Qwen 系列
阿里出品,中文能力突出,对中文用户友好。Qwen 2.5 在多个中文基准上表现优异,同时英文能力也在快速追赶。最新的 Qwen 2.5 提供了从 0.5B 到 72B 的完整规格线。
优势:中文能力强、规格线完整、开源协议友好。 劣势:英文社区影响力不如 Llama,部分工具链适配滞后。
Mistral 系列
法国团队,以小博大,推理效率高。Mistral 的模型以参数效率著称——用更少的参数达到相近的效果。Mixtral 8x7B 的 MoE 架构在推理时只激活部分参数,实现了性能和效率的平衡。
优势:推理效率高、架构创新、欧洲数据合规友好。 劣势:大规格模型缺失,中文能力一般。
DeepSeek 系列
国内团队 DeepSeek 在 2025 年初的表现令人瞩目。DeepSeek-V3 和 R1 在推理任务上展现了极强的竞争力,尤其是 R1 的思维链推理能力在数学和编程任务上接近甚至超越闭源模型。
优势:推理能力强、开源彻底、训练成本控制出色。 劣势:生态还在建设中,企业级部署工具链不够完善。
闭源 vs 开源
分析人士指出,开源与闭源之间的能力差距正在缩小,但在复杂推理和超长上下文任务上仍有明显差距。对于大多数实际应用场景,开源模型已经足够。
几个具体维度的对比:
| 维度 | 开源 | 闭源 |
|---|---|---|
| 通用对话 | 接近 | 略优 |
| 复杂推理 | 差距缩小 | 仍有优势 |
| 代码生成 | 接近 | 接近 |
| 多模态 | 快速追赶 | 领先半年 |
| 超长上下文 | 差距较大 | 明显优势 |
| 成本控制 | 优势明显 | API 费用高 |
| 数据隐私 | 完全可控 | 依赖第三方 |
对于企业来说,选择开源还是闭源不再是一个非此即彼的问题。很多团队的做法是:核心业务用开源模型私有化部署,探索性项目用闭源 API 快速验证。
开发者生态
2025 年开源大模型的开发者生态也发生了显著变化:
微调工具链成熟:Axolotl、LLaMA-Factory、Unsloth 等工具让微调的门槛大幅降低。以前需要写大量训练代码,现在准备好数据集、选好参数就能开始训练。
推理引擎竞争:vLLM、TensorRT-LLM、SGLang 等推理引擎在吞吐量和延迟上持续优化,部署成本进一步下降。
评估标准统一:Open LLM Leaderboard、AlpacaEval、MT-Bench 等评估基准帮助开发者快速对比不同模型的表现。
模型合并兴起:不需要训练,通过合并多个现有模型的权重来创造新模型。DARE、TIES 等合并策略让社区可以快速迭代出针对特定场景优化的模型。
展望
2025 年下半年,几个方向值得持续关注:
- 推理效率:MoE 架构和投机解码(Speculative Decoding)技术会进一步降低推理成本
- 长上下文:128K 以上的上下文窗口会成为标配,RAG 的必要性可能会被重新评估
- Agent 生态:模型能力不再是瓶颈,Agent 框架和工具生态会成为竞争焦点
- 合成数据:用大模型生成训练数据来训练小模型的范式会更加成熟
开源大模型的黄金时代才刚刚开始。