机器学习与模式识别 第一章 机器学习导论 模拟卷及答案

📅 2026/6/30 23:01:27
机器学习与模式识别 第一章 机器学习导论 模拟卷及答案
第一章Introduction to Machine Learning — 单元习题总分100分 | 建议用时60分钟范围ML定义、AI vs ML、三类问题、学习范式、ML历史、ML生命周期、归纳偏置占位用一、单项选择题每题2分共20题40分1.机器学习的核心定义是A. 通过手工编写规则来解决问题B. 通过数据让软件系统改进学习性能C. 通过穷举搜索找到最优解D. 通过模仿人脑的所有神经元连接2.“AI is the Goal. ML is the ___.” 空格处应为A. ToolB. MethodC. ResultD. Foundation3.以下哪项属于机器学习问题的典型特征A. 可以用明确的算法直接解决B. 容易演示或评估解决方案但难以直接编程实现C. 完全依赖人类判断机器无法参与D. 可以通过穷举所有可能情况解决4.判断短信是否为垃圾邮件属于什么类型的问题A. 工程问题Engineering ProblemB. 机器学习问题ML ProblemC. 人类问题Human ProblemD. 无法解决的问题5.监督学习Supervised Learning的输入数据形式是A. 仅输入X无标签B. 观测对 {(X, Y)}C. 仅奖励信号 reward(·)D. 随机噪声6.图像分类任务属于监督学习中的哪类A. 回归RegressionB. 分类ClassificationC. 聚类ClusteringD. 降维Dimensionality Reduction7.股票价格预测输出连续值属于A. 分类B. 回归C. 聚类D. 强化学习8.无监督学习中的聚类Clustering任务是A. 预测每个样本的离散标签B. 预测连续数值C. 在没有标签的情况下发现数据中的自然分组D. 从奖励信号中学习9.强化学习Reinforcement Learning的学习信号是A. 输入-输出对 {(X, Y)}B. 奖励信号 reward(·)C. 无任何信号纯随机D. 人工标注的标签10.1957年提出的感知机Perceptron属于ML历史的哪个阶段A. 1990s统计学习兴起B. 1950s-60s早期阶段C. 2010s深度学习革命D. 现在GenAI时代11.深度学习革命Deep Learning Revolution大约从哪一年开始A. 1997B. 2005C. 2012D. 202012.ML生命周期Lifecycle的正确顺序是A. M → L → O → PB. L → M → O → PC. O → L → M → PD. P → M → L → O13.ML生命周期中L阶段的核心问题不包括A. 我想预测什么B. 我有什么数据C. 如何评估成功D. 如何部署模型到生产环境14.“M”Model Design阶段不包括A. 特征工程Feature EngineeringB. 选择模型族/架构C. 确定归纳偏置D. 定义损失函数15.“O”Optimization阶段的核心任务包括A. 定义损失函数、选择优化方法、管理正则化B. 收集数据、标注数据、划分数据集C. 选择模型架构、设计特征D. 部署模型、监控性能16.归纳偏置Inductive Bias的作用是A. 从无限多个可能函数中挑选出更合理的解实现泛化B. 增加模型的训练误差C. 消除所有先验假设D. 随机选择模型参数17.以下哪项是归纳偏置的例子A. 使用CNN架构→引入平移不变性假设B. 增加训练数据量C. 提高学习率D. 使用GPU加速训练18.使用词袋模型Bag-of-Words编码文本时引入了什么归纳偏置A. 词序重要B. 词序无关 词义独立C. 每个词有唯一的上下文语义D. 句子长度固定19.以下哪个不是本课程使用的工具A. pandasB. PyTorchC. Scikit-learnD. Docker20.本课程的评分组成是A. 实验30% 考试70%B. 出勤10% 实验报告30% 期末考试60%C. 出勤20% 作业40% 考试40%D. 全部由期末考试决定二、判断题每题2分共15题30分。正确打√错误打×21.机器学习的基本配方是用数据训练模型然后用模型做决策。 22.AI人工智能和ML机器学习是完全相同、可以互换的概念。 23.线性回归Linear Regression是一种机器学习方法。 24.Engineering Problem可以通过写一套明确的规则或算法来解决。 25.判断一张图片中是否有猫属于Engineering Problem。 26.监督学习需要{(X, Y)}标注数据对无监督学习只需要{X}数据。 27.降维Dimensionality Reduction属于监督学习任务。 28.1990年代的ML发展重点是概率模型和统计学习理论。 29.ML生命周期中Optimization优化阶段只需要选择合适的模型架构即可。 30.归纳偏置来自训练数据本身而非模型设计者的先验假设。 31.使用L2正则化权重衰减是一种归纳偏置——它偏好较小的权重值。 32.特征工程Feature Engineering是Model Design阶段的任务。 33.当前的GenAI生成式AI时代以大型语言/多模态模型为代表。 34.本课程要求先修概率统计、线性代数和微积分知识。 35.无监督学习直接从奖励信号中学习最优策略。 三、简答题每题4分共6题24分36.什么是机器学习请用一句话定义并解释其基本配方的两个步骤。37.请区分AI、ML、DL三者的关系。38.请区分Engineering Problem、ML Problem和Human Problem并各举一个例子。39.请简述三种学习范式监督学习、无监督学习、强化学习的核心区别包括各自的输入形式和学习目标。40.请画出ML生命周期L-M-O-P的四个阶段并简述每个阶段要回答的核心问题。41.什么是归纳偏置Inductive Bias为什么它是必需的请举出至少两个来自不同来源的归纳偏置例子。四、计算题每题3分共2题6分42.在一个垃圾邮件分类任务中假设模型对一封邮件预测为垃圾邮件的概率为p0.8真实标签为垃圾邮件t1。请分别计算(1) 均方误差MSEE(t−p)2E (t - p)^2E(t−p)2(2) 若模型将另一封正常邮件t0错误预测为p0.99此时MSE是多少为什么MSE对这种错得离谱的情况惩罚不足43.假设某ML估计量θ^\hat{\theta}θ^在多次抽样中的期望值为E[θ^]0.7E[\hat{\theta}]0.7E[θ^]0.7而真实参数值θ0.8\theta0.8θ0.8。请计算该估计量的偏差 Bias。该估计量是否是无偏的Unbiased参考Bias(θ^)E[θ^]−θBias(\hat{\theta}) E[\hat{\theta}] - \thetaBias(θ^)E[θ^]−θ试卷结束请认真检查。第一章Introduction to Machine Learning — 单元习题答案一、单项选择题答案题号答案解析1BML的定义Software systems that improve (learn) through data2BAI is the Goal. ML is the Method.3BML问题easy to demonstrate/evaluate but difficult to directly implement4BSpam难以精确定义因人而异但容易展示例子→是ML问题5B监督学习观察{(X,Y)}对无监督仅有{X}强化学习有X和reward(·)6B分类输出离散标签回归输出连续值7B股票价格是连续值→回归任务8C聚类在无标签数据中发现自然分组9B强化学习从reward signal中学习监督学习从{(X,Y)}中学习10B1957 Perceptron属于1950s-60s早期阶段11C2012年深度学习AlexNet标志DL革命开始12B正确顺序L(Problem)→M(Model)→O(Optimization)→P(PredictEvaluate)13D部署到生产环境不是L阶段的核心问题L阶段关注Target/Objective/Data14D定义损失函数属于O(Optimization)阶段非M阶段15AO阶段定义损失选优化方法管理正则化16A归纳偏置从无限函数中挑选合理解→泛化17ACNN的平移不变性是经典的架构归纳偏置18B词袋模型忽略词序→假设词序无关词义独立19DDocker不是本课程工具课程使用pandas/PyTorch/Scikit-learn/Plotly/WB20B出勤10% 实验报告30% 期末考试60%二、判断题答案题号答案解析21√正确Training用数据拟合模型Inference用模型做预测22×AI是目标ML是实现方法两者不同。DL是ML的子集23√线性回归是ML的一种方法24√Engineering Problem 可以用明确算法/规则解决25×图像识别难以直接编程→属于ML Problem而非Engineering Problem26√监督{(X,Y)}无监督{X}强化Xreward27×降维属于无监督学习任务28√1990s是统计ML兴起时期强调数学基础29×优化阶段的核心是定义损失选优化方法正则化非选模型架构30×归纳偏置来自模型设计者的先验假设/偏好非数据本身31√L2正则化偏好小权重→是典型的归纳偏置32√特征工程属于Model Design阶段33√当前GenAI时代以LLM/LMM为代表34√课程要求Python编程概率统计线代微积分35×从奖励信号学习是强化学习无监督学习从无标签数据中发现模式三、简答题参考答案36. 机器学习定义与基本配方参考答案定义机器学习是让软件系统通过数据改进学习性能的技术。基本配方的两步训练Training用数据examples来教fit一个模型 → 学习模型参数推理Inference用训练好的模型对新输入做预测/决策37. AI、ML、DL的关系参考答案术语关系说明AI人工智能最终目标让计算系统执行通常需要人类智能的任务ML机器学习实现方法通过数据让系统学习和改进是现代AI的核心技术DL深度学习ML的子集使用深层神经网络的ML方法一句话AI是目标ML是实现方法DL是ML中最强大的技术之一。38. 三类问题对比参考答案问题类型定义例子Engineering Problem可用明确算法/规则直接解决计算两个数的最大公约数ML Problem容易演示/评估但难以直接编程判断短信是否垃圾邮件图像中检测人脸Human Problem无法精确定义需要人类判断伦理决策、审美评判实际问题通常需要 Engineering ML Human 三者结合。39. 三种学习范式参考答案范式输入学习目标典型任务监督学习{(X, Y)} 观测对学习X→Y的映射分类、回归无监督学习{X} 仅数据发现数据内在模式/结构聚类、降维、密度估计强化学习X, reward(·)从奖励信号中学习最优策略游戏AI、机器人控制40. ML生命周期参考答案L → M → O → P阶段核心问题L - Learning Problem预测什么Target有什么数据Data如何评判成功ObjectiveM - Model Design选什么模型族做什么特征工程引入什么归纳偏置O - Optimization用什么损失函数选什么优化算法如何正则化防过拟合P - Predict Evaluate模型在测试集上表现如何使用什么评估指标41. 归纳偏置参考答案定义学习算法为在有限数据下对未见输入做出合理预测而引入的先验假设或偏好。必要性无免费午餐定理——没有算法在所有问题上最优。给定有限数据存在无限多个函数能完美拟合但泛化性能不同。归纳偏置从中挑选合理解。例子模型架构CNN的卷积结构→假设平移不变性特征在图像任意位置都应是同一特征特征工程词袋模型编码文本→假设词序无关、词义独立正则化L2权重衰减→偏好较小的权重值防止过拟合模型选择选择线性模型→假设数据线性可分四、计算题参考答案42. MSE计算与分析(1) p0.8, t1正确方向但不够自信E(t−p)2(1−0.8)20.220.04E (t - p)^2 (1 - 0.8)^2 0.2^2 \mathbf{0.04}E(t−p)2(1−0.8)20.220.04(2) p0.99, t0极其自信但完全错误E(t−p)2(0−0.99)2(−0.99)20.9801E (t - p)^2 (0 - 0.99)^2 (-0.99)^2 \mathbf{0.9801}E(t−p)2(0−0.99)2(−0.99)20.9801MSE为什么惩罚不足第(2)种情况是极其自信地完全预测错了t0但预测p0.99但MSE只有约0.98MSE的最大值被封顶在1因为预测值p∈[0,1]标签t∈{0,1}差值的平方≤1相比之下交叉熵损失对这种情况会产生趋向无穷大的惩罚因此MSE在分类任务中不是好的损失函数——它对错得离谱的预测过于温和43. 偏差计算Bias(θ^)E[θ^]−θ0.7−0.8−0.1Bias(\hat{\theta}) E[\hat{\theta}] - \theta 0.7 - 0.8 \mathbf{-0.1}Bias(θ^)E[θ^]−θ0.7−0.8−0.1Bias -0.1 ≠ 0→ 该估计量是有偏的Biased若估计量是无偏的需满足E[θ^]θE[\hat{\theta}] \thetaE[θ^]θ即Bias0答案编制完成时间2026年6月27日