更新时间:2025-03-19 16:35:29
封面
版权信息
版权
内容提要
作者简介
前言
第一部分 生成式AI的理论基础与技术架构
第1章 Transformer与注意力机制的核心原理
1.1 Transformer的基本结构
1.1.1 Encoder-Decoder架构
1.1.2 自注意力机制与多头注意力机制
1.1.3 残差连接与层归一化
1.2 注意力机制的核心原理
1.2.1 点积注意力与加性注意力的对比
1.2.2 Softmax归一化原理
1.2.3 注意力矩阵的稀疏性与加速优化
1.3 Transformer的扩展与优化
1.3.1 动态注意力的实现
1.3.2 长距离注意力机制与稀疏注意力机制
1.3.3 多样化位置编码
1.4 上下文窗口
1.4.1 上下文窗口扩展
1.4.2 内存与计算复杂度的平衡
1.4.3 DeepSeek-V3在上下文窗口方面的优化
1.5 训练成本与计算效率的平衡
1.5.1 参数量与计算需求的增长趋势
1.5.2 GPU计算架构在Transformer中的应用
1.5.3 DeepSeek-V3如何降低训练成本
1.6 本章小结
第2章 DeepSeek-V3核心架构及其训练技术详解
2.1 MoE架构及其核心概念
2.1.1 混合专家(MoE)简介
2.1.2 Sigmoid路由的工作机制
2.1.3 基于MoE的DeepSeek-V3架构设计
2.2 FP8混合精度训练的优势
2.2.1 混合精度计算的基本原理
2.2.2 FP8在大模型训练中的应用
2.2.3 基于FP8的DeepSeek-V3性能提升策略
2.3 DualPipe算法与通信优化
2.3.1 DualPipe(双管道)算法
2.3.2 All-to-All跨节点通信机制
2.3.3 InfiniBand与NVLink的带宽优化
2.4 大模型的分布式训练
2.4.1 数据并行与模型并行的权衡
2.4.2 DeepSeek-V3的分布式训练架构
2.4.3 动态学习率调度器的设计与优化
2.4.4 无辅助损失的负载均衡策略
2.4.5 多Token预测策略
2.5 缓存机制与Token
2.5.1 缓存命中与未命中的基本概念
2.5.2 Token的定义与编码过程
2.5.3 DeepSeek-V3的高效缓存机制
2.6 DeepSeek系列模型
2.6.1 DeepSeek LLM
2.6.2 DeepSeek-Coder
2.6.3 DeepSeek-Math
2.6.4 DeepSeek-VL
2.6.5 DeepSeek-V2
2.6.6 DeepSeek-Coder-V2
2.6.7 DeepSeek-V3
2.7 本章小结
第3章 基于DeepSeek-V3模型的开发导论
3.1 大模型应用场景
3.1.1 文本生成与摘要
3.1.2 问答系统与对话生成
3.1.3 多语言编程与代码生成
3.2 DeepSeek-V3的优势与应用方向
3.2.1 在不同领域的实际表现
3.2.2 多语言编程能力(基于Aider测评案例)
3.2.3 代码与数学任务的应用探索
3.3 Scaling Laws研究与实践
3.3.1 模型规模与性能的关系
3.3.2 小模型上的Scaling Laws实验结果
3.4 模型部署与集成
3.4.1 API调用与实时生成
3.4.2 本地化部署
3.4.3 性能优化策略
3.5 开发中的常见问题与解决方案
3.5.1 输入设计与生成控制
3.5.2 模型偏差与稳健性问题
3.5.3 关于DeepSeek-V3特定问题的应对技巧
3.6 本章小结
第二部分 生成式AI的专业应用与Prompt设计
第4章 DeepSeek-V3大模型初体验
4.1 对话生成与语义理解能力
4.1.1 单轮对话与多轮对话
4.1.2 上下文交互
4.2 数学推理能力
4.2.1 常规数学题目评估
4.2.2 复杂难题理解与推理
4.3 辅助编程能力
4.3.1 辅助算法开发
4.3.2 软件开发
4.4 本章小结
第5章 DeepSeek开放平台与API开发详解
5.1 DeepSeek开放平台简介
5.1.1 平台核心模块与服务概述
5.1.2 开放生态中的关键角色与协作
5.2 DeepSeek API的基础操作与API接口详解
5.2.1 API调用的认证机制与请求结构