深度学习与PyTorch

🎯 目标：掌握深度学习核心概念，熟练使用PyTorch框架进行模型开发，理解RNN/LSTM/GRU序列模型。 📋 前置要求：阶段一（Python基础、微积分、线性代数、机器学习基础）

本阶段知识依赖图

阶段一基础
    │
    ├──→ 神经网络基础 ──→ 反向传播 ──→ 激活函数/正则化
    │         │
    │         ├──→ CNN（图像处理）──→ 经典CNN模型 ──→ 迁移学习
    │         │
    │         └──→ RNN（序列处理）──→ LSTM ──→ GRU
    │                                    │
    │                                    └──→ 深度/双向RNN
    │
    └──→ PyTorch框架（贯穿始终）
              │
              ├──→ 张量操作 ──→ 自动求导
              ├──→ 模型构建 ──→ 训练循环
              ├──→ 数据加载 ──→ Dataset/DataLoader
              └──→ 训练优化 ──→ 混合精度/学习率调度

模块一：神经网络与PyTorch基础

1.1 神经网络基础——从生物到数学

什么是神经网络？

类比：一个决策工厂

想象你要判断一张图片是否是猫。你的大脑会怎么做？

先识别边缘（这里有条线，那里有个弧形）
再组合成形状（这个弧形+那个三角形 = 耳朵？）
最后做出判断（有尖耳朵+胡须+毛茸茸 → 大概率是猫）

神经网络做的就是同样的事——分层提取特征，逐层抽象，最终做出判断。

生物神经元：                     人工神经元：
    树突（输入信号）              输入 x₁, x₂, x₃
        ↓                              ↓
    细胞体（加权求和）            z = w₁x₁ + w₂x₂ + w₃x₃ + b
        ↓                              ↓
    轴突（激活判断）              a = activation(z)
        ↓                              ↓
    突触（输出信号）              输出 a

每个神经元在做什么？ 两件事：

加权求和：把所有输入乘以各自的权重再加起来（“每个因素的重要程度不同”）
激活函数：对求和结果做一个非线性变换（“做出是否激活的决定”）

类比：一个神经元就像一个"评委"——它听取多方意见（输入），给每个意见不同的权重（重要程度），最后综合所有意见给出自己的评分（输出）。

神经网络的结构

输入层          隐藏层1         隐藏层2         输出层
  ○──────────────○──────────────○──────────────○
  ○──────────────○──────────────○──────────────○
  ○──────────────○──────────────○
  ○──────────────○
  
  3个输入        4个神经元       3个神经元       2个输出

前向传播（Forward Pass）：数据从左到右流过网络，逐层计算

h₁ = activation(W₁ · x + b₁)     # 第一层：原始输入 → 低级特征
h₂ = activation(W₂ · h₁ + b₂)    # 第二层：低级特征 → 高级特征
y = W₃ · h₂ + b₃                 # 输出层：高级特征 → 最终预测

每一层在做什么？

第1层：看到像素 → 识别边缘（"这里有条竖线"）
第2层：看到边缘 → 识别形状（"这个形状像耳朵"）
第3层：看到形状 → 做出判断（"有耳朵+胡须 → 是猫"）

这就是"分层抽象"——每一层把上一层的输出当作输入，提取更高层次的特征。

为什么需要激活函数？——非线性的力量

如果没有激活函数会怎样？

没有激活函数：
h₁ = W₁·x + b₁      （线性变换）
h₂ = W₂·h₁ + b₂     （线性变换）
y = W₃·h₂ + b₃       （线性变换）

合并起来：
y = W₃·(W₂·(W₁·x + b₁) + b₂) + b₃
  = W·x + b            （还是一个线性变换！）

再多层也等于一层！因为线性变换的组合还是线性变换。

激活函数的作用——引入非线性：

有了激活函数：
h₁ = σ(W₁·x + b₁)         （非线性变换）
h₂ = σ(W₂·h₁ + b₂)        （非线性变换）
y = W₃·h₂ + b₃

这时，两层网络 ≠ 一层网络！
因为非线性变换的组合可以逼近任意复杂的函数。

这就是"万能近似定理"（Universal Approximation Theorem）：
一个有足够多神经元的单隐层网络，可以逼近任意连续函数。

常用激活函数对比：

激活函数    公式                    特点                     使用场景
──────────────────────────────────────────────────────────────────────
Sigmoid     1/(1+e^(-x))           输出(0,1)，有梯度消失问题   二分类输出层
Tanh        (e^x-e^(-x))/(e^x+e^(-x))  输出(-1,1)，零中心化    RNN中常用
ReLU        max(0, x)              简单高效，无梯度消失        隐藏层首选
LeakyReLU   max(0.01x, x)          解决ReLU"死神经元"问题     ReLU的改进
GELU        x·Φ(x)                 平滑版ReLU                 Transformer中常用
Swish       x·σ(x)                 自门控，平滑               LLaMA中使用

ReLU为什么成为主流？

Sigmoid的问题：
σ'(x) = σ(x)·(1-σ(x))
当x很大或很小时，σ'(x) ≈ 0 → 梯度消失 → 网络学不动

ReLU的优势：
ReLU'(x) = 1（当x>0时）或 0（当x≤0时）
当x>0时，梯度恒为1 → 不会消失！
计算极其简单（就是一个max操作）

类比：
Sigmoid像一个"渐变开关"——输入越大越开，但永远不会完全开
ReLU像一个"硬开关"——要么全开（x>0），要么全关（x≤0）
硬开关虽然粗糙，但胜在简单高效。

1.2 反向传播——让网络"学习"的魔法

核心问题：如何更新权重？

我们有了损失函数L（衡量预测和真实值的差距），目标是找到让L最小的权重。方法就是梯度下降：

w_new = w_old - η · ∂L/∂w

关键是如何计算∂L/∂w？这就是反向传播要解决的问题。

类比：工厂流水线的责任追溯

想象一个工厂流水线生产了一个次品（损失L很大）：

原材料 → 工序1 → 工序2 → 工序3 → 次品

老板想知道"谁的责任最大"，以便调整每个工序：

反向传播就是从"次品"开始，逆向追溯每个工序的"责任"
每个工序的"责任" = 它对最终误差的贡献度 = 梯度

反向传播的完整推导（以2层网络为例）

网络结构：

输入x → [线性层1] → z₁ = W₁x + b₁ → [激活] → a₁ = σ(z₁) → [线性层2] → z₂ = W₂a₁ + b₂ → [损失] → L

前向传播（已知）：

z₁ = W₁·x + b₁
a₁ = σ(z₁)
z₂ = W₂·a₁ + b₂
L = ½(y - z₂)²    （均方误差）

反向传播（从右往左，逐步计算梯度）：

Step 1：L对z₂的梯度

∂L/∂z₂ = ∂/∂z₂ [½(y - z₂)²] = -(y - z₂) = z₂ - y

直觉：预测值和真实值的差距越大，梯度越大 → 需要调整的力度越大

Step 2：L对W₂和b₂的梯度

∂L/∂W₂ = ∂L/∂z₂ · ∂z₂/∂W₂ = (z₂ - y) · a₁^T

∂L/∂b₂ = ∂L/∂z₂ · ∂z₂/∂b₂ = (z₂ - y)

直觉：W₂的梯度 = 误差信号(z₂-y) × 输入信号(a₁)
      如果a₁很大，说明这个权重"参与度高"，需要调整更多

Step 3：L对a₁的梯度（误差从第2层传回第1层）

∂L/∂a₁ = ∂L/∂z₂ · ∂z₂/∂a₁ = W₂^T · (z₂ - y)

直觉：第2层的误差"按权重比例"分配给第1层的每个神经元
      权重越大，分配到的误差越多 → "谁的影响力大，谁的责任就大"

Step 4：L对z₁的梯度

∂L/∂z₁ = ∂L/∂a₁ · ∂a₁/∂z₁ = W₂^T · (z₂ - y) ⊙ σ'(z₁)

其中⊙是逐元素相乘，σ'(z₁) = σ(z₁)·(1-σ(z₁))

直觉：误差信号通过激活函数的导数"过滤"——
      如果激活函数在该点的导数很小（Sigmoid的饱和区），误差信号被大幅衰减
      → 这就是"梯度消失"的根本原因！

Step 5：L对W₁和b₁的梯度

∂L/∂W₁ = ∂L/∂z₁ · ∂z₁/∂W₁ = [W₂^T · (z₂-y) ⊙ σ'(z₁)] · x^T

∂L/∂b₁ = ∂L/∂z₁ = W₂^T · (z₂-y) ⊙ σ'(z₁)

总结——反向传播的核心规律：

每一层的梯度计算都可以分解为3步：
1. 接收来自下一层的误差信号
2. 乘以本层激活函数的导数
3. 乘以本层的输入信号

∂L/∂W = (误差信号) × (激活函数导数) × (输入)

计算图——现代深度学习框架的核心

什么是计算图？ 把数学运算画成一个有向图，每个节点是一个操作，每条边是数据流。

示例：y = (x + 1) × (x + 2)

计算图：
x ──┬──→ [+] → x+1 ──┬──→ [×] → y
    │                  │
    └──→ [+] → x+2 ──┘

PyTorch在前向传播时自动构建这个图
反向传播时沿着图的边反向计算梯度

import torch

# requires_grad=True 告诉PyTorch："请追踪这个张量的所有操作，构建计算图"
x = torch.tensor(2.0, requires_grad=True)
y = (x + 1) * (x + 2)    # PyTorch在背后记录了这个计算过程

y.backward()               # 沿计算图反向传播，自动计算梯度
print(x.grad)              # dy/dx = (x+2) + (x+1) = 4 + 3 = 7

为什么PyTorch用"动态"计算图？

动态图（PyTorch）：每次前向传播时实时构建
  优点：可以用Python的if/for等控制流，调试方便
  缺点：每次都要重新构建

静态图（TensorFlow 1.x）：先定义图结构，再执行
  优点：可以提前优化，运行更快
  缺点：调试困难，不灵活

PyTorch选择了"易用性优先"的动态图策略，这也是它在研究界流行的主要原因。

1.3 PyTorch环境搭建

CUDA安装——为什么需要GPU？

CPU（中央处理器）：少核心（8-16个），每个核心很强 → 适合串行复杂任务
GPU（图形处理器）：多核心（几千个），每个核心较弱 → 适合并行简单任务

神经网络训练的本质 = 大量矩阵乘法 = 高度并行运算 → GPU更适合！

类比：
CPU像一个数学教授——能解很难的题，但一次只能解一道
GPU像一群小学生——每个人只会简单加减乘除，但几千人同时算，总速度更快
矩阵乘法正好是"大量简单运算的组合"，所以GPU完胜。

安装步骤

# 1. 确认显卡型号和CUDA版本
nvidia-smi

# 2. 安装CUDA Toolkit（根据显卡选择版本）
# 从 https://developer.nvidia.com/cuda-toolkit-archive 下载

# 3. 安装cuDNN（CUDA的深度学习加速库）
# 从 https://developer.nvidia.com/cudnn 下载

# 4. 安装PyTorch（选择对应CUDA版本）
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

# 5. 验证安装
python -c "import torch; print(torch.cuda.is_available())"  # 应输出True

如果显卡不够怎么办？

Google Colab：免费GPU（T4），适合学习和小实验
AutoDL等云平台：按小时付费，可选A100/4090等高端GPU
CPU也能跑：小模型（如BERT-base）用CPU也能训练，只是慢10-50倍

1.4 PyTorch张量操作——深度学习的"积木"

什么是张量？

类比：从数字到张量的"升维之路"

标量（0D张量）：一个数字                    例如：学习率 lr = 0.001
向量（1D张量）：一行数字                    例如：一个词的嵌入 [0.2, 0.8, -0.1]
矩阵（2D张量）：一个表格                    例如：一个batch的数据 (32, 784)
3D张量：一摞表格                            例如：彩色图片 (高, 宽, 通道)
4D张量：一批图片                            例如：batch of images (批次, 通道, 高, 宽)

为什么叫"张量"而不是"数组"？

张量和数组在数据结构上是一样的，但张量有两个关键特性：
1. 可以在GPU上运算（NumPy数组只能在CPU上）
2. 支持自动求导（自动计算梯度）

所以张量 = NumPy数组 + GPU支持 + 自动求导
这就是深度学习框架的核心数据结构。

张量创建

import torch

# 从Python列表创建
t1 = torch.tensor([1, 2, 3])

# 创建特定形状的张量
zeros = torch.zeros(3, 4)       # 全0矩阵，shape: (3, 4)
ones = torch.ones(2, 3)         # 全1矩阵
rand = torch.randn(2, 3)        # 标准正态分布随机数（最常用于初始化权重）

# 从NumPy转换
import numpy as np
np_arr = np.array([1, 2, 3])
tensor = torch.from_numpy(np_arr)  # 共享内存！修改一方会影响另一方

张量运算——神经网络的基本操作

# ========== 矩阵乘法（最重要的操作！）==========
a = torch.randn(3, 4)    # shape: (3, 4)
b = torch.randn(4, 5)    # shape: (4, 5)
c = a @ b                 # shape: (3, 5)，等价于 torch.matmul(a, b)

# 维度规则：(3, 4) @ (4, 5) = (3, 5)
#           ───┬───   ───┬───   ──┬──
#              中间维度必须相同    结果的行列

# ========== 线性变换 y = Wx + b ==========
x = torch.randn(1, 784)        # 输入：1个784维样本
W = torch.randn(784, 256)       # 权重矩阵
b = torch.randn(1, 256)         # 偏置
h = x @ W + b                   # 隐藏层输出：shape (1, 256)
# 这就是神经网络中最基本的操作！每一层都在做 output = input @ weight + bias

# ========== 激活函数 ==========
relu_output = torch.relu(h)             # ReLU: max(0, x) — 负值变0，正值不变
sigmoid_output = torch.sigmoid(h)       # Sigmoid: 1/(1+e^(-x)) — 压缩到(0,1)
softmax_output = torch.softmax(h, dim=1) # Softmax: 转为概率分布

# ========== 形状操作（在Transformer中大量使用）==========
x = torch.randn(2, 3, 4)      # shape: (2, 3, 4)
x.reshape(6, 4)                # 改变形状为 (6, 4)，总元素数不变
x.permute(2, 0, 1)             # 转置维度：(2,3,4) → (4,2,3)（Attention中常用）
x.unsqueeze(0)                 # 在第0维增加一个维度：(2,3,4) → (1,2,3,4)
x.squeeze()                    # 去掉大小为1的维度

1.5 PyTorch自动求导与训练循环

自动求导（Autograd）——PyTorch的"杀手锏"

没有自动求导的时代：研究者需要手推每个模型的梯度公式，然后手动写代码实现。一个新模型可能需要几周时间来推导和验证梯度。

有了自动求导：只需要定义前向传播，PyTorch自动帮你计算梯度。新模型的实现时间从几周缩短到几小时。

import torch

# requires_grad=True 告诉PyTorch："请追踪这个张量的所有操作"
x = torch.tensor(2.0, requires_grad=True)
y = x**3 + 2*x**2 + x    # PyTorch在背后构建了计算图

y.backward()               # 自动反向传播，计算梯度
print(x.grad)              # dy/dx = 3x² + 4x + 1 = 12 + 8 + 1 = 21

PyTorch自动求导的工作原理：

1. 前向传播时：PyTorch记录每一步操作，构建"计算图"
2. 调用.backward()时：从输出节点开始，沿计算图反向传播
3. 每个节点：通过链式法则计算梯度
4. 结果：存储在每个叶子节点的.grad属性中

类比：前向传播像"记账"（记录每一步操作）
     反向传播像"审计"（追溯每一步的贡献）

完整的PyTorch训练循环——最重要的模板

这个模板适用于所有PyTorch模型！ 无论多复杂的模型（CNN、RNN、Transformer），核心都是这个循环。

import torch
import torch.nn as nn

# ===== 第1步：定义模型 =====
model = nn.Linear(1, 1)  # 简单线性回归 y = wx + b

# ===== 第2步：定义损失函数和优化器 =====
criterion = nn.MSELoss()                      # 均方误差损失（衡量预测和真实值的差距）
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)  # 随机梯度下降（更新参数的方法）

# ===== 第3步：准备数据 =====
x_train = torch.randn(100, 1)                 # 100个样本
y_train = 3 * x_train + 2 + torch.randn(100, 1) * 0.1  # y = 3x + 2 + 小噪声

# ===== 第4步：训练循环（核心！）=====
for epoch in range(1000):
    # 4a. 前向传播：用当前参数计算预测值
    y_pred = model(x_train)
    
    # 4b. 计算损失：预测值和真实值的差距
    loss = criterion(y_pred, y_train)
    
    # 4c. 反向传播：计算每个参数的梯度
    optimizer.zero_grad()   # 清零梯度（重要！PyTorch默认累加梯度）
    loss.backward()         # 自动计算梯度
    
    # 4d. 更新参数：沿着梯度的反方向走一步
    optimizer.step()
    
    if epoch % 100 == 0:
        print(f'Epoch {epoch}, Loss: {loss.item():.4f}')

# ===== 第5步：查看学到的参数 =====
print(f'w = {model.weight.item():.2f}')  # 应接近3
print(f'b = {model.bias.item():.2f}')    # 应接近2

为什么要optimizer.zero_grad()？

PyTorch的设计哲学：梯度默认是累加的（而不是覆盖的）
为什么要这样设计？某些场景下需要"累积多个batch的梯度"再更新一次

但大多数情况下，你需要在每次更新前手动清零：
optimizer.zero_grad()   # 清零
loss.backward()         # 计算新梯度
optimizer.step()        # 更新参数

如果不清零，梯度会越来越大 → 参数更新过猛 → 训练不稳定

模块二：CNN与图像处理

2.1 卷积神经网络原理

为什么全连接网络处理图像效果不好？

问题：参数爆炸

一张224×224的彩色图片 = 224×224×3 = 150,528个像素
如果用全连接层，第一个隐藏层有1000个神经元：
  需要 150,528 × 1000 = 1.5亿个参数！

问题：
1. 计算量巨大（1.5亿次乘法，每张图片！）
2. 显存不够（1.5亿个float32 = 600MB，仅第一层！）
3. 容易过拟合（参数太多，模型容易"死记硬背"图片）

核心洞察：图像有两大特性，全连接网络没有利用

1. 局部性（Locality）：一个像素主要和它周围的像素相关，和远处的像素关系不大
   → 不需要每个神经元连接所有150,528个输入！

2. 平移不变性（Translation Invariance）：猫在图片左上角和右下角，识别方法是一样的
   → 同一个特征检测器应该能用在图片的任何位置！

卷积操作——局部感知 + 参数共享

卷积核是什么？ 一个小的权重矩阵（比如3×3），像一个"滑动窗口"在图片上滑动。

输入图片（5×5）：              卷积核（3×3）：
1  1  1  0  0                  1  0  1
0  1  1  1  0                  0  1  0
0  0  1  1  1                  1  0  1
0  0  1  1  0
0  1  1  0  0

卷积核在左上角位置的计算：
[1 1 1]     [1 0 1]
[0 1 1]  ⊙  [0 1 0]  = 1×1 + 1×0 + 1×1 + 0×0 + 1×1 + 1×0 + 0×1 + 0×0 + 1×1 = 4
[0 0 1]     [1 0 1]
（⊙表示逐元素相乘，然后求和）

卷积核滑到下一个位置，重复计算...
最终得到输出特征图（3×3）：
4  3  4
2  4  3
2  3  4

卷积的三大优势：

1. 局部感知：每个输出只看3×3的局部区域（不是全部150,528个像素）
   → 参数量：3×3 = 9个（vs 全连接的150,528个！）

2. 参数共享：同一个卷积核用在图片的所有位置
   → 不管图片多大，参数量都是3×3 = 9个

3. 平移不变性：因为参数共享，猫在任何位置都能被同一个卷积核检测到

类比：卷积核就像一个"手电筒"，你在黑暗中用手电筒照亮图片的一小块区域，检查那里有没有你想要的特征（比如边缘），然后移动手电筒到下一个位置，重复检查。

卷积神经网络的核心组件

输入图片 → [卷积层] → [激活函数ReLU] → [池化层] → [卷积层] → ... → [全连接层] → 输出
            │            │                 │
        提取局部特征   引入非线性        降低空间尺寸

各层的作用详解：

1. 卷积层（Conv2d）：
   - 用多个不同的卷积核提取不同的特征
   - 第1个卷积核可能检测"竖线"，第2个可能检测"横线"，第3个可能检测"斜线"
   - 输出叫"特征图"（Feature Map），每个通道对应一个卷积核的检测结果

2. 激活函数（ReLU）：
   - 在每个卷积层后面加一个非线性变换
   - 让网络能够学习更复杂的模式

3. 池化层（MaxPool）：
   - 把特征图缩小（比如2×2的MaxPool把尺寸减半）
   - MaxPool取每个2×2区域的最大值
   - 作用：减少计算量，增强平移不变性（"物体稍微移动一点不影响识别"）

4. 全连接层（Linear）：
   - 把最后的特征图展平成一维向量
   - 做最终的分类决策

一个CNN的完整数据流（以28×28灰度图为例）：

输入：(1, 28, 28)           ← 1通道，28×28像素
  ↓ Conv2d(1→32, 3×3)
(32, 28, 28)                ← 32个特征图，每个28×28
  ↓ MaxPool(2×2)
(32, 14, 14)                ← 尺寸减半
  ↓ Conv2d(32→64, 3×3)
(64, 14, 14)                ← 64个特征图
  ↓ MaxPool(2×2)
(64, 7, 7)                  ← 尺寸再减半
  ↓ Flatten
(64×7×7) = (3136)           ← 展平为一维向量
  ↓ Linear(3136→128)
(128)                       ← 隐藏层
  ↓ Linear(128→10)
(10)                        ← 输出10个类别的概率

经典CNN模型演进——从浅到深的进化

模型         年份    层数    关键创新              ImageNet错误率
──────────────────────────────────────────────────────────────
LeNet-5     1998    5层     首个成功的CNN           （手写数字）
AlexNet     2012    8层     ReLU + Dropout + GPU    16.4%
VGG-16      2014    16层    小卷积核堆叠（3×3）     7.3%
GoogLeNet   2014    22层    Inception模块            6.7%
ResNet-152  2015    152层   残差连接                 3.6%  ← 超越人类！

ResNet的核心创新——残差连接

问题：层数太深反而效果变差（不是过拟合，而是训练困难——梯度消失/爆炸）

解决：残差连接（Skip Connection）

传统层：y = F(x)           ← 网络需要从零学习F(x) = y
残差层：y = F(x) + x       ← 网络只需要学习"改进量" F(x) = y - x

类比：
传统层像"从白纸画一幅画"——很难
残差层像"在原图上做修改"——容易得多！

为什么残差连接能解决梯度消失？

反向传播时：
传统层：∂L/∂x = ∂L/∂y · ∂F/∂x    （梯度经过F，可能消失）
残差层：∂L/∂x = ∂L/∂y · (∂F/∂x + 1)  （多了一个+1的"梯度高速公路"）

即使∂F/∂x接近0，梯度仍然可以通过"+1"这条路径直接传回去！
这就是为什么ResNet可以训练152层甚至更深的网络。

2.2 PyTorch实现CNN

import torch.nn as nn

class SimpleCNN(nn.Module):
    def __init__(self):
        super(SimpleCNN, self).__init__()
        
        # 卷积部分：提取特征
        self.features = nn.Sequential(
            # 第1个卷积块：1通道→32通道
            nn.Conv2d(1, 32, kernel_size=3, padding=1),  # padding=1保持尺寸不变
            nn.ReLU(),                                     # 非线性激活
            nn.MaxPool2d(2),                               # 尺寸减半：28→14
            
            # 第2个卷积块：32通道→64通道
            nn.Conv2d(32, 64, kernel_size=3, padding=1),
            nn.ReLU(),
            nn.MaxPool2d(2),                               # 尺寸减半：14→7
        )
        
        # 分类部分：全连接层
        self.classifier = nn.Sequential(
            nn.Flatten(),                    # 将(64,7,7)展平为(3136,)
            nn.Linear(64 * 7 * 7, 128),      # 全连接层
            nn.ReLU(),
            nn.Linear(128, 10),              # 输出10个类别
        )
    
    def forward(self, x):
        x = self.features(x)        # 前向传播：特征提取
        x = self.classifier(x)      # 前向传播：分类
        return x

# 使用
model = SimpleCNN()
input_img = torch.randn(1, 1, 28, 28)  # 1张28×28灰度图
output = model(input_img)               # shape: (1, 10) — 10个类别的logits

2.3 数据加载——Dataset与DataLoader

为什么需要Dataset和DataLoader？

问题：训练集可能有几百万张图片，不可能一次性全部加载到内存（RAM不够）。

解决方案：

Dataset：定义"数据在哪里，如何获取第i个样本"
DataLoader：定义"如何把多个样本打包成一个batch"，并负责多进程加载

类比：
Dataset = 菜谱（告诉厨师每道菜怎么做）
DataLoader = 传菜员（把多道菜一起端上来，还负责多个传菜员同时工作）

from torch.utils.data import Dataset, DataLoader

# Dataset：定义"如何获取一个样本"
class MyDataset(Dataset):
    def __init__(self, data, labels):
        self.data = data
        self.labels = labels
    
    def __len__(self):
        return len(self.data)           # 数据集大小
    
    def __getitem__(self, idx):
        return self.data[idx], self.labels[idx]  # 获取第idx个样本

# DataLoader：定义"如何组织一个批次"
dataset = MyDataset(data, labels)
dataloader = DataLoader(
    dataset, 
    batch_size=32,    # 每批32个样本
    shuffle=True,     # 打乱顺序（训练集要打乱，测试集不用）
    num_workers=4     # 4个子进程并行加载数据（加速IO）
)

# 训练时遍历数据
for batch_data, batch_labels in dataloader:
    predictions = model(batch_data)
    loss = criterion(predictions, batch_labels)
    # ...

2.4 混合精度训练

什么是混合精度训练？

类比：用计算器的精度选择

float32（32位浮点数）= 高精度计算器 → 结果精确，但计算慢、占内存大
float16（16位浮点数）= 低精度计算器 → 结果略有误差，但计算快、占内存小

混合精度 = 大部分计算用低精度（快），关键计算用高精度（准）

为什么能工作？

神经网络训练中：
- 95%的计算是矩阵乘法 → 用float16足够精确
- 5%的关键操作（损失计算、梯度累积）→ 保留float32

结果：显存节省约50%，训练速度提升2-3倍，精度几乎无损！

from torch.cuda.amp import autocast, GradScaler

scaler = GradScaler()  # 用于防止float16的下溢出

for batch in dataloader:
    optimizer.zero_grad()
    
    with autocast():                    # 自动选择精度（大部分用float16）
        output = model(batch)
        loss = criterion(output, target)
    
    scaler.scale(loss).backward()       # 缩放损失后反向传播（防止梯度太小而下溢出）
    scaler.step(optimizer)              # 更新参数
    scaler.update()                     # 更新缩放因子

2.5 深度学习进阶——正则化与优化技巧

Dropout——训练时随机"丢弃"神经元

self.dropout = nn.Dropout(p=0.5)  # 训练时50%的神经元会被随机置零

类比：期末考试随机缺席

想象一个班级有20个学生，期末考试时随机让一半学生缺席。
- 这迫使每个学生都必须自己学会知识，不能依赖抄别人的答案
- 同样，Dropout迫使每个神经元独立学习有用的特征，不能依赖其他神经元

效果：减少"协同适应"（co-adaptation）——神经元之间不会过度依赖
推理时：不用Dropout，但所有权重乘以(1-p)来补偿

BatchNorm——加速训练的"万金油"

self.bn = nn.BatchNorm1d(256)  # 对256维的特征做归一化

BatchNorm在做什么？

对每个mini-batch的数据做标准化：
1. 计算这个batch的均值μ和方差σ²
2. 标准化：x̂ = (x - μ) / √(σ² + ε)
3. 缩放和平移：y = γ·x̂ + β（γ和β是可学习的参数）

为什么要缩放和平移？
因为标准化后数据分布被强制为N(0,1)，可能损失有用信息。
γ和β让网络自己学到"最优的分布"。

为什么BatchNorm有效？

1. 减少内部协变量偏移：每层输入的分布稳定了，学习更容易
2. 允许更大学习率：稳定的梯度 → 可以走更大的步
3. 轻微正则化：因为每个batch的均值和方差有随机性，相当于加了噪声
4. 减少对初始化的敏感性：即使初始权重不太好，BatchNorm也能帮忙修正

模块三：RNN与序列模型

3.1 序列数据与文本预处理

什么是序列数据？

核心特征：顺序很重要，当前值依赖于之前的值

文本："我 爱 大 模 型"    → "大 模 型 爱 我" 意思完全不同！
股票：[100, 102, 101, 105] → 今天的股价和昨天的股价相关
音频：[0.1, 0.3, 0.5, ...] → 声音是随时间变化的信号

全连接网络的问题：它把输入当作独立的，不考虑顺序
CNN的问题：它只看局部窗口，不能建模长距离依赖
→ 需要一种新的网络结构来处理序列数据 → RNN

文本预处理流程

原始文本："I love AI"

Step 1 - 分词（Tokenize）：
"I love AI" → ["I", "love", "AI"]

Step 2 - 建立词表（Vocabulary）：
{"I": 0, "love": 1, "AI": 2, "<PAD>": 3, "<UNK>": 4}
词表把每个词映射到一个唯一的整数ID

Step 3 - 转为数字序列：
["I", "love", "AI"] → [0, 1, 2]

Step 4 - 填充/截断（Padding）：
不同句子长度不同，需要统一长度
短的用<PAD>填充，长的截断
[0, 1, 2] → [0, 1, 2, 3, 3]（填充到长度5）

Step 5 - 送入模型：
模型的输入是数字序列 [0, 1, 2, 3, 3]

3.2 RNN原理与实现

为什么需要RNN？

类比：读书

你读一本书时，理解当前这句话需要记住之前的内容。

读到"他打开了门" → 你知道"他"是谁（因为前文提过）
读到"因为下雨，所以…" → 你知道这是一个因果关系

RNN做的同样的事——用"隐藏状态"记住之前的信息，辅助理解当前的输入。

时间步t=1: h₁ = tanh(W_h · h₀ + W_x · x₁ + b)   # 读第1个词，产生记忆h₁
时间步t=2: h₂ = tanh(W_h · h₁ + W_x · x₂ + b)   # 读第2个词，结合记忆h₁产生h₂
时间步t=3: h₃ = tanh(W_h · h₂ + W_x · x₃ + b)   # 读第3个词，结合记忆h₂产生h₃

h₃包含了前3个词的信息！

关键点：每个时间步使用相同的权重（W_h, W_x）——这就是"参数共享"。

不管句子有多长，参数量是固定的
同一个RNN Cell可以处理任意长度的序列

RNN的展开形式——理解RNN的关键

虽然RNN看起来只有一个Cell，但展开后就像一个很深的网络：

         h₀     h₁     h₂     h₃
          │      │      │      │
x₁ → [RNN Cell] → h₁
x₂ →          [RNN Cell] → h₂
x₃ →                   [RNN Cell] → h₃

每个Cell共享同一组权重，但每个时间步有不同的输入和输出。

RNN的致命缺陷——梯度消失（用数字说明）

反向传播时，梯度需要从h_T一路传回h₁：
∂L/∂h₁ = ∂L/∂h_T · ∂h_T/∂h_(T-1) · ∂h_(T-1)/∂h_(T-2) · ... · ∂h₂/∂h₁

问题：每一步的 ∂h_t/∂h_(t-1) 的最大值约等于 W_h 的谱范数
     如果这个值 < 1（比如0.9）：
     0.9^10 ≈ 0.35  （10步后梯度衰减到35%）
     0.9^50 ≈ 0.005 （50步后梯度衰减到0.5%！）
     0.9^100 ≈ 0.00003（100步后梯度几乎为0！）

结果：远处的信息无法影响当前的参数更新
     RNN只能"记住"最近几个词的信息
     → RNN学不到长距离依赖！

类比：传话游戏

10个人排成一排传话。
第1个人说"明天下午3点开会"，传到第10个人可能变成"后天中午吃饭"。
信息在传递过程中逐级失真——这就是梯度消失的形象比喻。

LSTM和GRU的解决方案：给信息一条"直达通道"，不让它被逐级衰减。

3.3 LSTM——解决长期依赖的"神器"

LSTM的核心思想——细胞状态 + 三个门

类比：你的笔记本

想象你有一个笔记本（细胞状态），每天要做三件事：

擦掉不再重要的旧笔记（遗忘门）
写入今天重要的新信息（输入门）
决定今天给老板看哪些内容（输出门）

细胞状态 C_t：一条"信息高速公路"，信息可以无损地流过
              ─────────────────────────────────────→ C_t
                   ↑            ↑            ↑
              遗忘门(×)    输入门(+)    输出门(→h_t)

遗忘门 f_t = σ(W_f · [h_(t-1), x_t] + b_f)    → 0到1的值
    "旧记忆中，哪些应该保留？" 0=全忘，1=全留

输入门 i_t = σ(W_i · [h_(t-1), x_t] + b_i)    → 0到1的值
候选值 C̃_t = tanh(W_C · [h_(t-1), x_t] + b_C)  → -1到1的值
    "新信息中，哪些值得写入？写入多少？"

输出门 o_t = σ(W_o · [h_(t-1), x_t] + b_o)    → 0到1的值
    "从记忆中，今天展示哪些内容？"

更新公式：
    C_t = f_t ⊙ C_(t-1) + i_t ⊙ C̃_t    ← 关键！是加法，不是乘法
    h_t = o_t ⊙ tanh(C_t)

完整数值示例：

假设处理句子"The cat, which is very cute, sat on the mat"

当处理到"sat"时，需要知道主语是"cat"（中间隔了4个词）。

遗忘门：看到"sat"时，f_t ≈ [1, 1, 0.01, ...]
       → 保留"cat"的信息，丢弃"which is very cute"的细节

输入门：看到"sat"是一个动词，i_t ≈ [0, 0, 0.9, ...]
       → 写入"sat"的信息

结果：细胞状态中同时保存了"cat"（很久之前的信息）和"sat"（刚看到的信息）
     → LSTM知道"cat sat on the mat"，理解了主谓关系

为什么LSTM能解决梯度消失？

数学解释：

普通RNN的梯度链：∂h_t/∂h_(t-1) = W · diag(σ'(z))  → 连乘，指数衰减

LSTM的细胞状态梯度：∂C_t/∂C_(t-1) = f_t  （遗忘门的值）

当 f_t ≈ 1 时：∂C_t/∂C_(t-1) ≈ 1 → 梯度无损传递！
这就是LSTM的"梯度高速公路"——只要遗忘门接近1，信息就能无损地流过任意长的距离。

类比：传送带 vs 口口相传

普通RNN像"口口相传"：信息逐级传递，每传一次就失真一点
LSTM像"传送带"：信息放在传送带上直接送到目的地，不会失真

传送带的"速度"由遗忘门控制：
- 遗忘门=1：传送带全速运转，信息无损传递
- 遗忘门=0：传送带停了，信息被丢弃

3.4 GRU——LSTM的"简化版"

GRU的设计哲学：用更少的参数达到类似的效果

LSTM（3个门 + 候选细胞状态 → 4个线性变换）：
    遗忘门 f_t：决定忘记什么
    输入门 i_t：决定记住什么
    输出门 o_t：决定输出什么
    候选值 C̃_t：新的候选记忆

GRU（2个门 → 3个线性变换）：
    重置门 r_t：决定如何结合新输入和旧记忆（类似"输入门"的一部分）
    更新门 z_t：同时控制"忘记旧的"和"记住新的"（合并了遗忘门和输入门）

GRU的公式：
重置门：  r_t = σ(W_r · [h_(t-1), x_t])
更新门：  z_t = σ(W_z · [h_(t-1), x_t])
候选状态：h̃_t = tanh(W · [r_t ⊙ h_(t-1), x_t])
最终状态：h_t = (1 - z_t) ⊙ h_(t-1) + z_t ⊙ h̃_t

注意最后一行：
(1-z_t) ⊙ h_(t-1)：保留多少旧记忆（当z_t=0时，完全保留）
z_t ⊙ h̃_t：添加多少新信息（当z_t=1时，完全更新）

z_t同时控制了"遗忘"和"输入"，这就是GRU比LSTM少一个门的原因。

LSTM vs GRU 如何选择？

特性              LSTM                    GRU
─────────────────────────────────────────────────
门的数量          3个门                   2个门
参数量            更多                    更少（约少25%）
训练速度          较慢                    较快
长序列效果        略好                    略差
数据量少时        可能过拟合              更好（参数少）

实践建议：
- 先试GRU（更快），效果不好再换LSTM
- 如果序列很长（1000+步），LSTM通常更好
- 如果数据量很少，GRU更好（不容易过拟合）

3.5 深度/双向RNN

深度RNN——多层堆叠

类比：CNN的层次化特征提取

CNN：边缘 → 纹理 → 形状 → 物体
深度RNN：词法 → 语法 → 语义 → 情感

第3层：  h₃₁ → h₃₂ → h₃₃ → ...    ← 学习最高层特征（语义、情感）
第2层：  h₂₁ → h₂₂ → h₂₃ → ...    ← 学习中层特征（语法结构）
第1层：  h₁₁ → h₁₂ → h₁₃ → ...    ← 学习底层特征（词法信息）
输入：    x₁    x₂    x₃

每层的输出作为上一层的输入，层层抽象。

双向RNN——同时看过去和未来

问题：有些任务需要同时理解前后文

示例："我去银行存钱" vs "我在河岸散步"
- "银行"的含义取决于后面的"存钱"
- 只看左边无法确定"银行"是金融机构还是河岸

双向RNN的解决方案：
正向：  h→₁ → h→₂ → h→₃ → h→₄     ← 从左到右阅读
反向：  h←₁ ← h←₂ ← h←₃ ← h←₄     ← 从右到左阅读

输出：  [h→₁,h←₁] [h→₂,h←₂] [h→₃,h←₃] [h→₄,h←₄]
        ← 每个位置同时包含"前文信息"和"后文信息"

应用场景：命名实体识别、文本分类、BERT的预训练
不能用于：语言模型、文本生成（因为生成时看不到"未来"的词）

模块四：词嵌入与Seq2Seq

4.1 Word2Vec——让计算机"理解"词义

Distributional Hypothesis（分布假说）——词嵌入的理论基础

核心思想：一个词的含义由它的上下文决定

语言学家John Rupert Firth在1957年提出：
"You shall know a word by the company it keeps."
（你可以通过一个词的"同伴"来认识它）

示例：
"我养了一只__，它很可爱" → 空格处大概率是"猫"或"狗"
"我开了一辆__去上班" → 空格处大概率是"车"

→ 如果两个词经常出现在相似的上下文中，它们的含义就相似
→ "猫"和"狗"的上下文相似（可爱、养、宠物）→ 它们的向量应该接近

分布假说是所有词嵌入方法（Word2Vec、GloVe、FastText）的理论基础：

Word2Vec：通过预测上下文来学习词义（隐式利用分布假说）
GloVe：通过统计共现矩阵来学习词义（显式利用分布假说）
FastText：通过子词的上下文来学习词义（分布假说的扩展）

类比：
分布假说 = "物以类聚，人以群分"
→ 经常在一起出现的词，含义相似
→ 词嵌入就是把这种"相似性"用向量距离来表达

分布假说的局限：

1. 多义词问题："苹果"在不同上下文中含义不同
   → Word2Vec给"苹果"一个固定的向量，无法区分
   → 后来ELMo、BERT通过上下文相关的词向量解决了这个问题

2. 反义词问题："好"和"坏"经常出现在相似的上下文中
   → "这个东西很__" → 好/坏都可能
   → 但它们含义相反！
   → 分布假说无法区分反义词（这是词嵌入的已知局限）

从独热编码到词嵌入

独热编码的问题：

假设词表有50,000个词：
"猫" = [1, 0, 0, 0, ..., 0]    # 50,000维，只有1个1
"狗" = [0, 1, 0, 0, ..., 0]    # 50,000维，只有1个1
"汽车" = [0, 0, 1, 0, ..., 0]  # 50,000维，只有1个1

距离("猫", "狗") = 距离("猫", "汽车") = √2
→ 无法表达"猫和狗更相似"这个事实！
→ 独热编码没有语义信息。

词嵌入的解决方案：

用一个低维向量（比如300维）来表示每个词，语义相似的词有相似的向量：
"猫"   = [0.2, 0.8, -0.1, 0.5, ...]   # 300维
"狗"   = [0.3, 0.7, -0.2, 0.4, ...]   # 和"猫"很接近
"汽车" = [-0.5, 0.1, 0.9, -0.3, ...]  # 和"猫"很远

距离("猫", "狗") << 距离("猫", "汽车")
→ 词嵌入能表达语义关系！

Word2Vec的两种模式

CBOW（连续词袋）——用上下文预测中心词：
    输入：[我, __, 大, 模型]
    目标：预测__ = "爱"
    
    类比：完形填空——给你上下文，猜中间的词

Skip-gram——用中心词预测上下文：
    输入：爱
    目标：预测[我, 大, 模型]
    
    类比：看一个词，猜它周围会出现什么词

Word2Vec的训练过程（Skip-gram简化版）：

1. 准备训练数据：从大量文本中提取(中心词, 上下文词)配对
   句子"我爱大模型" → ("爱", "我"), ("爱", "大"), ("爱", "模型")

2. 构建一个简单的神经网络：
   输入层：中心词的独热编码 → 嵌入层 → 输出层 → softmax → 预测上下文词

3. 训练这个网络：
   最大化 P(上下文词 | 中心词)
   
4. 训练完成后，嵌入层的权重就是词向量！
   每个词对应嵌入矩阵的一行 → 300维向量

Word2Vec的经典发现——词向量的"魔法"

king - man + woman ≈ queen
（国王的向量 - 男人的向量 + 女人的向量 ≈ 女王的向量）

这意味着词嵌入学到了：
- 性别关系：man→woman 类似于 king→queen
- 时态关系：walking→walked 类似于 swimming→swam
- 地理关系：Paris→France 类似于 Rome→Italy

这些关系完全是自动从文本中学到的，没有任何人工标注！

4.2 GloVe、FastText与ELMo

GloVe——全局统计 + 局部上下文

Word2Vec只看局部上下文窗口（比如前后5个词）
GloVe利用全局共现矩阵（统计整个语料库中所有词对的共现次数）

GloVe的核心思想：
如果词i和词j经常一起出现 → 它们的向量应该接近
"冰"和"水"经常共现 → 向量接近
"冰"和"蒸汽"的共现模式类似但有差异 → 向量差反映了"固态vs气态"的关系

效果：在类比任务上，GloVe通常优于Word2Vec

FastText——子词嵌入

Word2Vec/GloVe的问题：每个词是一个整体，遇到没见过的词（OOV）就无法处理

FastText的解决方案：把词拆成字符n-gram
"where" → ["<wh", "whe", "her", "ere", "re>"]
"where"的向量 = 所有子词向量的和

优势：
1. 处理未登录词（OOV）：即使没见过"unhappiness"，也能用"un"+"happi"+"ness"的子词向量组合
2. 利用形态学信息：词根、前缀、后缀都有含义
3. 对中文也有用：字级别的n-gram能捕获偏旁部首的信息

ELMo——上下文相关的词向量（BERT的前身）

Word2Vec/GloVe/FastText的共同问题：
同一个词在所有语境下的向量都相同！

"苹果很好吃"  中的"苹果" = [0.2, 0.8, ...]  （应该是"水果"的意思）
"苹果发布新手机"中的"苹果" = [0.2, 0.8, ...]  （应该是"公司"的意思）
→ 向量完全一样！这不合理。

ELMo的解决方案：用双向LSTM，根据上下文动态生成词向量
"苹果很好吃"  → 双向LSTM → "苹果"的向量偏向"水果"
"苹果发布新手机" → 双向LSTM → "苹果"的向量偏向"公司"

核心思想：词的含义取决于上下文！
这就是后来BERT的核心思想——上下文相关的词表示。

4.3 Seq2Seq与Encoder-Decoder架构

Seq2Seq——序列到序列

应用场景：

机器翻译：  "I love AI" → "我爱人工智能"
文本摘要：  "很长的文章..." → "一句话摘要"
对话系统：  "你好吗？" → "我很好，谢谢！"

架构：

Encoder（编码器）：读取输入序列，压缩成一个固定长度的向量
Decoder（解码器）：从这个向量生成输出序列

"I" → ┌───────┐         ┌───────┐ → "我"
"love"→│Encoder│→ 向量c →│Decoder│→ "爱"
"AI" → └───────┘         └───────┘ → "人工智能"

Encoder用RNN/LSTM逐词读入，最后一个隐藏状态就是"语义向量"
Decoder用另一个RNN/LSTM从语义向量逐词生成输出

Seq2Seq的问题——信息瓶颈

问题：整个输入序列被压缩成一个固定长度的向量（比如256维）
如果输入有100个词，256维要容纳100个词的全部信息 → 太拥挤了！

类比：把一本书的全部内容压缩成一句话 → 一定会丢失大量信息

后果：句子越长，翻译质量越差

4.4 注意力机制——让模型学会"关注"

注意力的核心思想——不要压缩，要"关注"

类比：同声传译

Seq2Seq的做法：先把整本书读完记住，然后闭着眼睛翻译
→ 信息量太大，记不住

注意力的做法：翻译每个词时，回头看原文的相关部分
→ 翻译"猫"时看原文的"cat"
→ 翻译"坐"时看原文的"sit"
→ 每一步都"关注"最相关的部分

注意力的三步计算：

假设编码器输出了4个隐藏状态 [h₁, h₂, h₃, h₄]
解码器当前状态是 s_t

Step 1：计算注意力分数（"每个位置和我有多相关？"）
    score_i = s_t^T · h_i    （内积越大，越相关）
    比如：score = [0.1, 0.8, 0.05, 0.05]  ← 第2个位置最相关

Step 2：Softmax归一化（"把分数变成概率"）
    attention_weights = softmax(scores)
    = [0.1, 0.8, 0.05, 0.05]  ← 已经是概率分布了

Step 3：加权求和（"按重要性混合信息"）
    context = Σ(attention_weights_i · h_i)
    = 0.1·h₁ + 0.8·h₂ + 0.05·h₃ + 0.05·h₄
    ← 主要信息来自h₂（最相关的位置）

这个context向量就是"注意力的输出"——它聚合了编码器所有位置的信息，
但重点关注了最相关的部分。

多头注意力（Multi-Head Attention）——从多个角度看

单头注意力：只用一种方式计算相关性
多头注意力：用多种方式并行计算不同类型的相关性

类比：你和朋友看同一张照片
- 你关注颜色（"这张照片色调很暖"）
- 朋友关注构图（"主体在黄金分割点上"）
- 另一个朋友关注内容（"这是在海边拍的"）

每个人从不同角度"关注"同一张照片，综合所有人的观察才能全面理解。

多头注意力同理：
- Head 1 可能学到语法关系（主语-谓语）
- Head 2 可能学到语义关系（同义词）
- Head 3 可能学到位置关系（相邻词）
- ...
所有头的结果拼接起来 → 全面的语义表示

这就是Transformer的核心组件，也是GPT、BERT的基础。

📝 自测题

神经网络：画出一个2层全连接网络的前向传播过程，标注每个矩阵的维度
反向传播：给定网络 y = σ(Wx+b)，手推 ∂L/∂W 的梯度公式
激活函数：为什么ReLU比Sigmoid更适合做隐藏层的激活函数？
PyTorch：用PyTorch定义一个CNN模型，完成MNIST手写数字识别的训练循环
CNN：解释卷积操作的三大优势（局部感知、参数共享、平移不变性）
ResNet：用一句话解释残差连接为什么能训练更深的网络
RNN：解释RNN的梯度消失问题，用数字说明为什么长序列会"遗忘"
LSTM：解释三个门的作用，以及为什么细胞状态能保留长距离信息
LSTM vs GRU：GRU如何用2个门实现LSTM 3个门的功能？
注意力机制：解释注意力的三个步骤，并说明它如何解决Seq2Seq的信息瓶颈问题

📚 推荐补充资源

知识点	推荐资源	说明
神经网络	3Blue1Brown《神经网络》系列	最直观的神经网络可视化教程
反向传播	Andrej Karpathy《Yes you should understand backprop》	反向传播的直觉讲解
PyTorch	PyTorch官方教程	跟着做一遍就能上手
CNN	CS231n（斯坦福计算机视觉课程）	CNN的经典课程
RNN/LSTM	Chris Olah《Understanding LSTM》	图解LSTM的经典文章
注意力机制	Jay Alammar《The Illustrated Seq2Seq》	图解Seq2Seq和注意力
Word2Vec	Jay Alammar《Illustrated Word2Vec》	图解Word2Vec

本阶段知识依赖图#

模块一：神经网络与PyTorch基础#

1.1 神经网络基础——从生物到数学#

什么是神经网络？#

神经网络的结构#

为什么需要激活函数？——非线性的力量#

1.2 反向传播——让网络"学习"的魔法#

核心问题：如何更新权重？#

反向传播的完整推导（以2层网络为例）#

计算图——现代深度学习框架的核心#

1.3 PyTorch环境搭建#

CUDA安装——为什么需要GPU？#

安装步骤#

1.4 PyTorch张量操作——深度学习的"积木"#

什么是张量？#

张量创建#

张量运算——神经网络的基本操作#

1.5 PyTorch自动求导与训练循环#

自动求导（Autograd）——PyTorch的"杀手锏"#

完整的PyTorch训练循环——最重要的模板#

模块二：CNN与图像处理#

2.1 卷积神经网络原理#

为什么全连接网络处理图像效果不好？#

卷积操作——局部感知 + 参数共享#

卷积神经网络的核心组件#

经典CNN模型演进——从浅到深的进化#

ResNet的核心创新——残差连接#

2.2 PyTorch实现CNN#

2.3 数据加载——Dataset与DataLoader#

为什么需要Dataset和DataLoader？#

2.4 混合精度训练#

什么是混合精度训练？#

2.5 深度学习进阶——正则化与优化技巧#

Dropout——训练时随机"丢弃"神经元#

BatchNorm——加速训练的"万金油"#

模块三：RNN与序列模型#

3.1 序列数据与文本预处理#

什么是序列数据？#

文本预处理流程#

3.2 RNN原理与实现#

为什么需要RNN？#

RNN的展开形式——理解RNN的关键#

RNN的致命缺陷——梯度消失（用数字说明）#

3.3 LSTM——解决长期依赖的"神器"#

LSTM的核心思想——细胞状态 + 三个门#

为什么LSTM能解决梯度消失？#

3.4 GRU——LSTM的"简化版"#

GRU的设计哲学：用更少的参数达到类似的效果#

LSTM vs GRU 如何选择？#

3.5 深度/双向RNN#

深度RNN——多层堆叠#

双向RNN——同时看过去和未来#

模块四：词嵌入与Seq2Seq#

4.1 Word2Vec——让计算机"理解"词义#

Distributional Hypothesis（分布假说）——词嵌入的理论基础#

从独热编码到词嵌入#

Word2Vec的两种模式#

Word2Vec的经典发现——词向量的"魔法"#

4.2 GloVe、FastText与ELMo#

GloVe——全局统计 + 局部上下文#

FastText——子词嵌入#

ELMo——上下文相关的词向量（BERT的前身）#

4.3 Seq2Seq与Encoder-Decoder架构#

Seq2Seq——序列到序列#

Seq2Seq的问题——信息瓶颈#

4.4 注意力机制——让模型学会"关注"#

注意力的核心思想——不要压缩，要"关注"#

多头注意力（Multi-Head Attention）——从多个角度看#

📝 自测题#

📚 推荐补充资源#