ASCENT:从基础到精通的机器学习工程
1,333 页讲义幻灯片。10 个模块。320 课时。由零基础到硕士水准。
ASCENT 是泰睿开放学院推出的开源机器学习工程项目。它带领在职从业者从第一行 Python 代码起步,直至构建具备完整治理的生产级机器学习系统。每一个概念均以三重深度并行讲授,每一道方程式都完整推导,而非直接断言。
| 基础攀登(M1–M5) | 高阶攀登(M6–M10) | |
|---|---|---|
| 层级 | 零基础 Python 至生产级 ML | 从进阶到硕士水准 |
| 时长 | 160 课时(40 节) | 160 课时(40 节) |
| 成果 | 部署受治理的 ML 模型 | 构建对齐的 AI 代理系统 |
| 序号 | 模块 | 学习要点 | 幻灯片 |
|---|---|---|---|
| 1 | Python 与数据素养 | 从零起步的 Python、Polars、数据画像、可视化 | 85 |
| 2 | 统计基础 | 20+ 种分布、最大似然估计(MLE)、贝叶斯推断、假设检验、自助法(bootstrap)、信息论 | 131 |
| 3 | 特征工程与实验设计 | CUPED 方差缩减、DiD、因果森林、Double ML、9 类编码方法、Boruta、数据泄漏检测 | 99 |
| 4 | 监督学习 | 完整模型家族(从线性模型到 CatBoost)、XGBoost 二阶泰勒展开、偏差-方差分解、保形预测 | 83 |
| 5 | ML 工程与生产化 | SHAP 公理与 TreeSHAP、LIME、ALE、公平性(不可能性定理)、工作流、DataFlow、模型注册表、集成方法 | 150 |
| 6 | 无监督学习与模式发现 | K-means 到 HDBSCAN、EM/GMM(完整推导)、PCA-SVD 关系、t-SNE、UMAP、LDA、NMF、BERTopic、异常检测 | 146 |
| 7 | 深度学习 | 以神经网络视角看线性回归、反向传播(完整链式法则)、并行化训练(数据/模型/流水线/张量)、CNN、ResNet、Adam 推导 | 100 |
| 8 | 自然语言处理与 Transformer | BPE 分词、Word2Vec(负采样推导)、LSTM 门控、自注意力(为何除以 sqrt d_k)、Transformer 架构、BERT、GPT、Flash Attention | 150 |
| 9 | 大语言模型、AI 代理与 RAG | 2026 年第一季度 LLM 全景、7 种 RAG 架构、混合检索、RAGAS 评估、ReAct/Reflexion 代理、多代理 A2A、MCP 协议、Nexus 部署 | 235 |
| 10 | 对齐、强化学习与治理 | LoRA/QLoRA、DPO(从 RLHF 出发的五步推导)、GRPO、PPO(裁剪目标与 GAE)、贝尔曼方程、欧盟 AI 法案、PACT D/T/R 治理、完整平台结项项目 | 154 |
| 合计 | 1,333 |
三重教学层次
Section titled “三重教学层次”每一个概念均在三种深度下呈现:
| 层次 | 标识 | 受众 | 示例(偏差-方差) |
|---|---|---|---|
| 直觉 | Foundations | 零基础的职业人士 | 「设想你向靶心投飞镖。偏差是所有投掷点中心与靶心的距离;方差则是这些投掷点的离散程度。」 |
| 数学 | Theory | 进阶从业者 | E[(y-y_hat)^2] = Bias^2(y_hat) + Var(y_hat) + sigma^2,逐步推导 |
| 研究 | Advanced | 硕士及以上/博士 | 双下降现象(Belkin 等,2019):在超参数化模型中,测试误差在跨过插值阈值后继续下降 |
银行家与博士坐在同一间教室,离开时都会学到自己此前不知道的内容。
项目包含的全部产出
Section titled “项目包含的全部产出”| 组件 | 数量 | 详情 |
|---|---|---|
| 讲义幻灯组 | 10 | Reveal.js HTML、三重深度、KaTeX 公式、讲师备注 |
| 幻灯片 | 1,333 | 每一道方程式均完整推导,每一种算法均逐步拆解 |
| 练习 | 80 | 含解答 + 本地 Python + Jupyter + Colab(三种格式一致) |
| 数据集 | 11 | 新加坡本地情境:HDB 转售 1,500 万、出租车 5 万、信用 10 万、实验数据 50 万 |
| 测验 | 10 | 246 道抗 AI 回答型题目(基于情境,非机械记忆) |
| SDK 教程书 | 163 篇教程 | 83 篇 Python + 80 篇 Rust,由浅入深 |
| 形式 | 位置 | 适用场景 |
|---|---|---|
| 本地 Python | modules/ascent*/local/*.py | 完整异步支持、Nexus 部署 |
| Jupyter | modules/ascent*/notebooks/*.ipynb | 交互式探索 |
| Google Colab | modules/ascent*/colab/*.ipynb | 免安装、GPU 可用 |
非供应商锁定
Section titled “非供应商锁定”ASCENT 教授的是行业标准工具。Kailash Python SDK(基金会开源的机器学习编排平台)在此之上提供治理与编排能力:
| 你学到的 | 行业标准 | Kailash 附加价值 |
|---|---|---|
| 数据 | Polars(Apache Arrow) | DataExplorer:自动化画像,8 类告警 |
| 经典机器学习 | scikit-learn、XGBoost、LightGBM、CatBoost | TrainingPipeline:训练编排与模型注册表 |
| 深度学习 | PyTorch | OnnxBridge:便携的 ONNX 导出 |
| NLP | BERTopic、sentence-transformers | ModelVisualizer:基于 Plotly 的交互分析 |
| LLM 代理 | OpenAI / Anthropic / Groq API | Kaizen Delegate:带成本预算的结构化输出 |
| 治理 | 欧盟 AI 法案 / 新加坡 AI Verify | PACT:基于运行包络的 D/T/R 问责 |
若你换用其他技术栈,数学基础、scikit-learn、PyTorch 与架构性范式均可随身带走。
git clone https://github.com/terrene-foundation/ascent.gitcd ascentuv venv && uv synccp .env.example .env # M9-M10 所需的 API 密钥
# 第一道练习uv run python modules/ascent01/local/ex_1.py
# 查看讲义幻灯片open decks/ascent01/deck.html代码与练习采用 Apache 2.0 许可;讲义内容采用 CC BY 4.0 许可。可自由使用、扩展与教学。