这是一套面向零基础到中高级学习者的人工智能完整体系教程,涵盖从数学基础、机器学习、深度学习,到大语言模型、多模态学习、AI Agent 等各个方向。
特点:
- 🐣 从浅入深:无需深厚背景知识,循序渐进
- 📖 图文并茂:善用 mermaid 图表、架构图、流程图
- 🔬 专业准确:每个概念均有公开资料支撑,附参考资料
- 💡 直白易懂:用通俗语言讲解专业概念
适合人群:
- AI 初学者,想系统学习人工智能
- 已有一定基础,想深入某个专项方向
- 开发者,想了解 AI 前沿进展
- 产品经理、研究者,想了解 AI 技术原理
📦 AI-Tutorial
├── README.md ← 你在这里
├── SUMMARY.md ← 完整目录(用于文档导航)
├── 附录A-经典模型选型速查表.md ← 横向对比速查
└── chapters/ ← 正文章节
├── PART0-人工智能导论/
├── PART1-数学基础/
├── PART2-机器学习基础/
├── PART3-深度学习核心/
├── PART4-卷积神经网络CNN/
├── PART5-序列建模与循环网络/
├── PART6-Transformer与预训练/
├── PART7-大语言模型LLM/
├── PART8-生成式AI/
├── PART9-高级学习范式/
├── PART10-训练优化与部署/
├── PART11-计算机视觉进阶/
├── PART12-多模态与Agent/
├── PART13-行业应用与前沿/
├── PART14-AI伦理与安全/
└── PART15-论文阅读与实验写作/
| 部分 | 章节 | 内容 |
|---|---|---|
| PART0 | 0-1 人工智能概述 | 什么是AI?弱/强/超AI分类、图灵测试 |
| PART0 | 0-2 人工智能发展史 | 1950s感知机 → 深度学习崛起 → LLM时代(含 ML vs DL 对比、标准化) |
| PART0 | 0-3 AI 学习与项目阶段指南 | 需求分析、环境分类、骨干选型、训练调优、部署监控 + 训练数据量快速决策(5.3 节)⭐新增 |
| PART1 | 1-1 线性代数基础 | 向量、矩阵、特征值、SVD、张量 |
| PART1 | 1-2 概率论基础 | 概率分布、贝叶斯定理、MLE |
| PART1 | 1-3 微积分基础 | 导数、链式法则、梯度下降 |
| PART1 | 1-4 信息论基础 | 熵、交叉熵、KL散度 |
| PART2 | 2-1 机器学习概述 | 监督/无监督/半监督/弱监督/自监督 + 聚类分析(K-Means/DBSCAN/层次)⭐新增 |
| PART2 | 2-2 经典机器学习算法 | 线性回归、决策树、SVM、朴素贝叶斯、KNN |
| PART2 | 2-3 模型评估与验证 | 交叉验证、混淆矩阵、ROC/AUC、过拟合/欠拟合 + 混淆矩阵驱动的数据清洗实战(3.8 节)+ Epoch/Batch/Iteration 概念 + 学习曲线诊断 + 欠拟合 7 种方案(3.9-3.11)⭐⭐新增 |
| PART2 | 2-4 特征工程 | 特征提取/选择/降维、PCA、标准化(含 VOC/COCO、Albumentations、K 折) |
| 部分 | 章节 | 内容 |
|---|---|---|
| PART3 | 3-1 神经网络基础 | 感知机、MLP、权重偏差 |
| PART3 | 3-2 激活函数 | Sigmoid、ReLU、Tanh、GELU |
| PART3 | 3-3 损失函数 | MSE、交叉熵、对比损失 + 交叉熵直观解释 + 信息论视角 + Label Smoothing + Focal Loss(3.6 节)⭐新增 |
| PART3 | 3-4 正向传播与反向传播 | 计算图、链式法则、梯度消失/爆炸 |
| PART3 | 3-5 优化算法 | GD/SGD、Momentum、Adam、AdamW、学习率策略 + 12 种 SGD 优化器变体大全(5.5 节)⭐新增 |
| PART3 | 3-6 正则化 | 过拟合/欠拟合、L1/L2、Dropout、Early Stopping |
| PART4 | 4-1 CNN原理 | 卷积核、步幅、填充、感受野 + 卷积层如何提取特征 + RNN/CNN/Transformer 三大特征提取器对比 ⭐⭐新增 |
| PART4 | 4-2 CNN核心操作 | 池化、BN、5种归一化(BN/LN/IN/GN/SN)、全连接层 |
| PART4 | 4-3 经典CNN架构 | LeNet→AlexNet→VGG→ResNet→MobileNet→DenseNet→RepVGG + ResNet50 vs MobileNetV2 vs Inception-ResNet-V2 三大对比 ⭐新增 |
| PART4 | 4-4 CNN 应用全景 | 四大任务总览 + 分类 + 检测 + 语义分割 + 实例分割 + 骨干映射 + FPN 深度专题 + FPN 家族演进 + 训练技巧 + 数据集 + 损失/指标(1200+ 行)⭐重写 |
| PART4 | 4-5 现代 CNN 骨干综述 | ResNet-D/RegNet/RepVGG/EfficientNet/ConvNeXt ⭐新增 |
| PART4 | 4-6 注意力机制全景 | SE/ECA/CBAM/CA/SimAM/SK 全覆盖 ⭐新增 |
| PART5 | 5-1 RNN原理 | 循环神经元、BPTT、梯度消失 |
| PART5 | 5-2 RNN变体 | LSTM、GRU、BiLSTM |
| PART5 | 5-3 Seq2Seq模型 | 编码器-解码器、注意力机制 |
| PART6 | 6-1 注意力机制 | Self-Attention、Q/K/V、多头注意力 |
| PART6 | 6-2 Transformer架构 | 编码器-解码器、位置编码 |
| PART6 | 6-3 BERT与预训练语言模型 | MLM、NSP、预训练+微调 |
| PART6 | 6-4 GPT系列与生成式预训练 | GPT-1→GPT-4、零样本学习 |
| PART6 | 6-5 注意力机制在CV中的应用 ⭐补充 | SE/ECA/CBAM/SimAM/SK-Net/Non-Local |
| PART6 | 6-6 词向量与预训练技术 ⭐补充 | Word2Vec、CBOW/Skip-Gram、MoCo、SimCLR |
| PART6 | 6-7 Transformer变体与高效注意力 ⭐补充 | Longformer、BigBird、Reformer、Performer、Linformer |
| PART6 | 6-8 CNN在NLP中的应用与膨胀卷积 ⭐补充 | TextCNN、膨胀卷积、GLU、ConvNeXt、CoAtNet |
| PART6 | 6-9 混合专家模型MoE与Switch Transformer ⭐补充 | MoE、Switch Transformer、负载均衡、Mixtral、DeepSeek |
| 部分 | 章节 | 内容 |
|---|---|---|
| PART7 | 7-1 LLM基础与主流模型 | GPT-4/Claude/LLaMA/Qwen/DeepSeek |
| PART7 | 7-2 LLM训练技术 | 预训练、SFT、RLHF、DPO + 8 种 PEFT Finetune 方法大全(LoRA/QLoRA/Adapter/BitFit)⭐新增 |
| PART7 | 7-3 Prompt Engineering | Zero-shot/Few-shot/CoT/结构化输出/52套模板/去AI味 |
| PART7 | 7-4 LLM进阶技术 | LoRA、QLoRA、Flash Attention、RAG |
| PART7 | 7-5 本地大模型与 Ollama 实战 | Ollama 安装/部署/Modelfile/Wechaty/RAG ⭐新增 |
| PART8 | 8-1 生成对抗网络GAN | GAN原理、DCGAN、WGAN、StyleGAN |
| PART8 | 8-2 扩散模型Diffusion | DDPM、DDIM、CFG、vs GAN对比 |
| PART8 | 8-3 文生图与视频生成 | Stable Diffusion、Sora、Runway |
| PART9 | 9-1 小样本学习与元学习 | Few-shot、MAML、Prototypical Networks |
| PART9 | 9-2 零样本学习与CLIP | CLIP、Zero-shot、Prompt Tuning |
| PART9 | 9-3 强化学习基础 | MDP、Q-Learning、DQN、PPO、Stable-Baselines3 实战 |
| PART9 | 9-4 图神经网络与知识图谱 | GCN/GraphSAGE/GAT/TransE-TransH-TransR-RotatE/PinSage |
| PART9 | 9-5 联邦学习与隐私保护 ⭐补充 | 联邦学习、隐私计算、FedAvg |
| PART9 | 9-6 知识图谱与智能问答系统 ⭐补充 | KGQA、SPARQL、多轮问答 |
| PART9 | 9-7 智能问答系统完整 Pipeline | 问句预处理/检索/MRC/生成 ⭐新增 |
| 部分 | 章节 | 内容 |
|---|---|---|
| PART10 | 10-1 学习率与Batch-Size | Warmup、Cosine衰减、线性缩放 + Large Batch 与 LR 关系深度剖析 + 九大学习率衰减策略(7-8 节)⭐新增 |
| PART10 | 10-2 混合精度与分布式训练 | FP16/BF16、DDP、FSDP、DeepSpeed |
| PART10 | 10-3 模型压缩与优化 | 知识蒸馏、剪枝、量化、TensorRT |
| PART10 | 10-4 模型部署实战 | ONNX/TorchScript/Docker/OpenVINO/TFLite/TensorRT/ONNX Runtime |
| PART10 | 10-5 梯度累加与显存优化 ⭐补充 | 梯度累加 + TF32/BF16/INT8 实测 |
| PART10 | 10-6 OpenMMLab 生态与 MMDeploy 部署 | MMDet/MMSeg/MMDeploy 多后端部署 ⭐新增 |
| PART10 | 10-7 边缘部署与 Jetson 实战 | Jetson 谱系/TensorRT/性能调优 ⭐新增 |
| 10-8 训练硬件选型指南 | 个人开发机/CNN 工作站/4-GPU 节点/数据中心/LLM 个人训练不了 + 云租+二手 + 选型决策树 + 2024-2026 推荐配置 + 算力单位 (TOPS/FLOPS/FLOPs) + 算力 vs 显存非线性 + A100 Tensor Core 黑魔法 + CUDA Compute Capability 80+ GPU 全表 ⭐⭐新增 | |
| 10-9 训练实战技巧大全 | Google 43 条经验法则 + Kaggle 39 场实战技巧 + SGD 11 种优化器变体 + Finetune 7 种 PEFT + Snapshot Ensembles + Softmax 温度 T + 训练 Tricks 精华 + 10 步 Checklist ⭐新增 |
| 部分 | 章节 | 内容 |
|---|---|---|
| PART11 | 11-1 目标检测进阶 | R-CNN→YOLO全系列→Anchor-Free→IoU系列损失→遮挡 + 数据标注原则 1.3 节 + 数据增强详解(Mosaic 4 图拼接)1.4 节 ⭐⭐新增 |
| PART11 | 11-2 语义分割与实例分割 | FCN/U-Net/DeepLab/Mask R-CNN/SegNet/GCN/BCNet/Mask2Former |
| PART11 | 11-3 图像生成与编辑 | ESRGAN/CycleGAN + CAM/Grad-CAM 可解释性 |
| PART11 | 11-4 神经渲染与3D视觉 | NeRF、3D Gaussian Splatting、SLAM |
| PART11 | 11-5 人脸识别 | 应用场景、数据特点、常见网络、损失函数 |
| PART11 | 11-6 视觉应用补充阅读 ⭐补充 | OCR/细粒度/运动检测/行人重识别 ReID |
| PART11 | 11-7 目标跟踪与视频理解 | SORT/DeepSORT/ByteTrack + SlowFast/TimeSformer ⭐新增 |
| PART11 | 11-8 异常检测与工业缺陷 | PatchCore/PaDiM/DRAEM/SimpleNet/MVTec ⭐新增 |
| PART12 | 12-1 多模态学习 | BLIP、LLaVA、GPT-4V、Gemini |
| PART12 | 12-2 AI Agent 基础 | 自主规划、Function Calling、记忆系统 |
| PART12 | 12-3 Multi-Agent与具身智能 | 多智能体协作、VLA模型、具身AI |
| PART13 | 13-1 AI for Science | AlphaFold 2 + AlphaFold 3 + Boltz-1 + ESM-3 + AI 制药完整链路(§5)⭐新增 |
| PART13 | 13-2 自动驾驶AI | 端到端、BEV感知、占用网络 + World Model + VLM-AD(GAIA-2/DriveVLM/EMMA)(§5)⭐新增 |
| PART13 | 13-3 地理空间AI | 遥感影像、GIS+深度学习 + GeoAI 前沿(SatMAE/Prithvi/GeoChat)+ DOTA 旋转框(§5)⭐新增 |
| PART13 | 13-4 时间序列AI | Transformer时序预测、金融量化 + 时序基础模型(Chronos/Mamba/Time-LLM/TimeGPT)(§5)⭐新增 |
| PART13 | 13-5 World Model与AI Safety | 世界模型、具身智能、Constitutional AI |
| PART13 | 13-6 数字孪生 ⭐补充 | 数字孪生、仿真、工业应用 + LLM/World Model/PINN 3 大新范式 + 10 大工业平台(§8)⭐新增 |
| 部分 | 章节 | 内容 |
|---|---|---|
| PART14 | 14-1 AI伦理与对齐 | AI伦理原则/RLHF/Constitutional AI/偏见案例/标准化白皮书 |
| PART14 | 14-2 AI安全与对抗 | FGSM/PGD攻击、数据投毒、差分隐私 |
| PART15 | 15-1 论文阅读与实验报告写作 | 实验报告结构、论文三遍读法、模板 ⭐新增 |
| 章节 | 内容 |
|---|---|
| 附录A 经典模型选型速查表 | 分类/检测/分割/跟踪/异常检测/部署/Jetson/LLM 横向对比 ⭐新增 |
| 项目 | 数值 |
|---|---|
| 总部分数 | 15 |
| 总章节数 | 79 |
| 补充阅读章节数 | 14 |
| 附录 | 1(模型选型速查表) |
| 总行数 | ~47,481 行 |
| Mermaid 图表 | 378 个 |
| 涵盖领域 | 数学基础 → ML → DL → CV → NLP → LLM → 多模态 → Agent → 行业应用 → AI伦理 → 工程实战 → 实验写作 |
| ML-DL 素材覆盖率 | ~60% (从 ~25% 提升) |
| 前沿技术覆盖 | 2024-2026 主流:GRPO / DPO 变体 / V-JEPA 2 / Cosmos / FA3 / Mixture of Depths / Mamba / DiT / Flow Matching / Mechanistic Interpretability / Sleeper Agents / Computer Use / Deep Research 等 |
- 数学基础 - 线性代数、概率论、微积分、信息论
- 机器学习 - 经典算法、模型评估、特征工程
- 深度学习 - 神经网络、激活函数、优化器
- CNN - 卷积操作、经典架构、注意力
- RNN - 序列建模、LSTM/GRU、Seq2Seq
- Transformer - 注意力机制、BERT、GPT
- 大语言模型 - LLM训练、Prompt、LoRA、RAG、Ollama
- 生成式AI - GAN、Diffusion、SD、Sora
- 高级学习范式 - 小样本学习、强化学习、GNN、KGQA
- 训练优化 - 分布式训练、模型压缩、部署、OpenMMLab、Jetson
- 计算机视觉 - 目标检测/分割/跟踪/异常检测/视觉应用
- 多模态与Agent - 多模态学习、AI Agent
- 行业应用 - AI for Science、自动驾驶、Geo AI
- AI伦理 - 对齐问题、对抗安全、标准化
- 论文与实验 - 论文阅读、实验报告
这个教程里面的一些内容,是我曾经上网课的一些课件,里面还有很多是我的经验和一些网络资料,素材的积累。
曾经一直说要花点时间整理一下,做一个系统性的,完整的扫盲教程,但是苦于没有足够的精力,以及个人的懒惰(当然也有一部分是因为版权的束缚)。现在有了AI agent,吩咐我的agent,花了几块钱的token,整理了一下。重新编写了所有内容,重绘所有的图表,提取知识点,精炼内容等等。
2026 年 6 月 3 日,根据 ML-DL 参考目录(444 个 .md 文件)进行了全面审计和补全,吸收了 80% 以上未利用素材,包括 OpenMMLab 生态、Jetson 边缘部署、Ollama 本地大模型、ReID 行人重识别、目标跟踪 (SORT/ByteTrack)、异常检测 (PatchCore)、现代 CNN 骨干 (RegNet/RepVGG/ConvNeXt)、注意力全景 (SE/CBAM/CA/SK)、智能问答 Pipeline、Grad-CAM 可解释性、TF32/INT8 实测、AI 标准化白皮书等。
现在,公开发布共享。