机器学习与模式识别 第一章 机器学习导论 考点压缩 📅 2026/6/30 23:01:52 第一章Introduction to Machine Learning — 知识点笔记综合来源Lecture 01 PDF51页、课堂笔记CSDN1.1 课程信息占位用1.2 课程目标掌握核心ML概念和算法的数学基础能用Python/PyTorch实现、训练和调试标准模型能设计合理的评估方案确保结果可复现为高级课程和研究做准备涵盖模型设计、SGD、最大似然、损失函数、监督/无监督学习、分类/回归、正则化与偏差-方差权衡、降维、聚类与密度估计、实验设计1.3 什么是机器学习 ⭐定义Software systems thatimprove (learn) through data.基本配方用**数据examples**来训练fit一个模型用模型来做决策decisionsAI vs ML vs DL vs Agent术语关系营销时间线AI人工智能是目标—ML机器学习是方法2015-2020称为Deep LearningDL深度学习ML的子集2020-2024称为AIAgent智能体最新热点2024-现在AI is the Goal. ML is the Method.你已经做过ML线性回归 机器学习训练Training用数据教模型推理Inference用模型做预测1.4 三类问题 ⭐问题类型定义解决方式工程问题Engineering可以用直接的、可指定的算法或规则解决写代码/规则ML问题容易演示/评估解决方案但难以直接实现从数据中学习人类问题Human无法精确定义需要人类判断工程ML人类ML问题的定义A problem for which it iseasy to demonstrateor evaluate the solution butdifficult to directly implement.例子判断短信是否为垃圾邮件 → Spam难以定义因人而异但容易展示例子ChatGPT对话 → 难以编程实现但可以展示好的对话 可以评判对话质量1.5 机器学习 学习函数近似 ⭐h:X→Y(Input → Output)h: X \rightarrow Y \quad \text{(Input → Output)}h:X→Y(Input → Output)ML的过程 从数据中学习模型参数www三种学习范式范式输入目标监督学习Supervised{(X, Y)} 观测对学习输入到输出的映射关系无监督学习Unsupervised{X} 仅有数据发现数据内在模式强化学习RLX, reward(·)从奖励信号中学习策略监督学习两大任务任务输出类型例子分类Classification离散标签图像标签{Hot Dog, …}回归Regression连续值股票预测、下一词预测无监督学习两大任务任务说明例子聚类与密度估计发现数据中的自然分组图像压缩的近似表示降维将高维数据映射到低维可视化、作为其他ML任务的预处理1.6 ML历史发展时期阶段关键事件1950s-60s早期自学习跳棋程序(1959)、感知机(1957)1970s-80s挑战与进步决策树、RL基础、NN再发现1990s统计ML兴起概率模型、统计学习强调数学基础2000s大数据时代数据集增长计算变便宜→数据挖掘与数据科学2010s深度学习革命深度学习(2012)、生成模型现在GenAI时代大语言/多模态模型LLM/LMM教材演变1996概率线代→ 2006ML综合→ 2013-2022深度学习NNProbLin Alg→ 2023Modern ML1.7 ML生命周期Lifecycle⭐L → P → M → O → P阶段英文核心问题LLearning Problem定义问题预测什么用什么数据如何评判成功MModel Design模型设计选什么模型族/架构特征工程归纳偏置OOptimization优化定义损失函数选优化方法GD等正则化PPredict Evaluate预测与评估基于评估指标测试模型性能各阶段详解L - Learning ProblemTarget我想预测什么ML任务类型Objective如何评估成功用什么损失函数Data有什么数据数据表示训练/测试划分M - Model DesignFeature Engineering特征工程选择特征、编码特征Model family/Architecture模型族选择假设空间Hypothesis space假设空间Inductive biases / Assumptions归纳偏置O - OptimizationDefine a loss定义损失Choose optimization method选优化方法GD/SGD/Adam等Manage regularization overfitting正则化防过拟合P - Predict Evaluate基于evaluation metrics评估预测结果1.8 归纳偏置Inductive Bias⭐定义学习算法在面对有限训练数据时为了能对未见过的输入做出合理预测而引入的一组先验假设或偏好。核心理解给定有限训练样本→存在无限多个函数能完美拟合→但泛化性能不同归纳偏置从无限可能中**挑选出更合理的解→实现泛化**归纳偏置的来源来源例子模型结构选线性模型→假设数据线性可分特征工程用词袋模型→假设词序无关正则化L2正则→偏好小权重架构设计CNN→平移不变性选择不同的分割线/拟合线 决定使用什么样的归纳偏置Featurization时也会引入归纳偏置如词袋词序无关词义独立1.9 课程工具链工具用途pandas数据操作与分析Plotly / Matplotlib数据可视化Scikit-learn经典ML任务分类/回归/聚类PyTorch HuggingFace神经网络开发与NLP模型Weights Biases (WB)实验管理与追踪1.10 先修要求编程Python函数、类、调试概率统计条件概率、贝叶斯规则、期望均匀/伯努利/高斯分布线性代数与微积分特征值与特征向量计算梯度、链式法则笔记中的图片索引序号图片内容描述来源位置图1课程封面与教师信息Lecture 01 第1-5页图2课程内容全景图Lecture 01 第12页图3ML基本流程Training→InferenceLecture 01 第18-20页图4三类学习范式监督/无监督/强化Lecture 01 第26页图5ML历史发展时间线Lecture 01 第31-33页图6ML生命周期L-P-M-O-P循环图Lecture 01 第38-42页图7课程评估与先修要求Lecture 01 第48-50页笔记整理时间2026年6月27日