《数据挖掘》期末考试试卷(含答案与解析)

📅 2026/7/2 2:46:08
《数据挖掘》期末考试试卷(含答案与解析)
考试时间120分钟 总分100分一、判断题每题1分共10分判断下列说法是否正确正确的在括号内打“√”错误的打“×”数据挖掘的主要目标是从大量数据中发现有趣的模式和知识。√K-Means聚类算法需要预先指定聚类数目且对初始中心点的选择不敏感。×DBSCAN是一种基于密度的聚类算法能够发现任意形状的簇并能有效识别噪声点。√在层次聚类中AGNES是一种自底向上的凝聚方法。√关联规则挖掘中支持度(support)和置信度(confidence)越高规则一定越有意义。×分类和回归都属于预测任务但分类预测的是离散类别标签而回归预测的是连续数值。√主成分分析(PCA)是一种有监督的降维方法。×XGBoost模型在构建树时选择分裂节点的依据可以是信息增益(Gain)。√在推荐系统中User-User协同过滤是通过计算用户之间的相似度来推荐物品的。√时间序列分析只关注数据的顺序而不考虑数据点之间的时间间隔。×核心知识点解析数据挖掘定义核心是从数据中发现模式与知识。聚类算法特性K-Means需预设K值且对初始中心敏感DBSCAN基于密度可发现任意形状簇和噪声AGNES是自底向上的层次聚类。关联规则评估高支持度和置信度是必要条件但规则是否有意义还需结合提升度(Lift)等指标判断。学习任务区分分类离散标签与回归连续数值是核心的监督学习任务。降维方法PCA是无监督的降维方法。集成学习XGBoost等梯度提升树模型可使用信息增益等指标进行节点分裂。推荐系统协同过滤分为基于用户(User-User)和基于物品(Item-Item)两种基本思路。时间序列分析时必须考虑时间间隔的规律性。二、单项选择题每题2分共20分从A、B、C、D四个选项中选出一个正确答案题号答案解析1C数据挖掘的主要任务包括分类、聚类、关联分析等数据清洗属于数据预处理步骤是挖掘前的准备工作。2DK-Means基于距离度量倾向于发现球状或凸形的簇对于非球状、流形或大小差异大的簇效果不佳。3BDBSCAN基于密度和邻域参数发现簇无需预先指定簇的数目。K-Means、K-Medoids、模糊C均值都需要指定簇数。4B划分训练集和测试集的核心目的是评估模型在未见数据上的泛化能力防止模型在训练集上过拟合。5BK折交叉验证的标准流程是将数据均分为K份每次用其中一份作为测试集其余K-1份作为训练集重复K次最后综合K次的结果进行评估。6C均方误差(MSE)是回归模型最常用的评估指标之一。准确率、召回率、F1-Score主要用于分类任务。7B置信度confidence(A-B) support(A∪B) / support(A)表示在包含A的交易中同时包含B的条件概率。8DPCA、LDA、MDS都是经典的降维技术。决策树是一种分类/回归模型虽然可以进行特征选择但其本身不是降维技术。9A基于图论的社区发现算法如图划分、谱聚类常利用图的拉普拉斯矩阵的特征向量进行划分。10BLOF算法通过比较一个点与其邻居点的局部密度来判定离群点计算出的局部离群因子(LOF)越大该点越可能是离群点。核心知识点解析任务范畴区分数据挖掘核心任务与数据预处理步骤。算法适用性掌握不同聚类算法K-Means, DBSCAN的前提假设与优缺点。模型评估理解交叉验证的原理与目的掌握分类与回归的不同评估指标。关联规则准确理解支持度、置信度的定义与计算。技术分类明确降维技术与预测模型的区别。图数据挖掘了解社区发现与图矩阵如拉普拉斯矩阵的关联。离群点检测理解LOF等基于局部密度的离群点检测方法原理。三、简答题每题5分共20分1. 简述数据挖掘中“分类”与“聚类”任务的主要区别。维度分类 (Classification)聚类 (Clustering)任务类型监督学习 (Supervised Learning)无监督学习 (Unsupervised Learning)输入数据带有已知类别标签的训练数据没有类别标签的数据目标学习一个模型用于预测新数据的类别标签根据数据内在的相似性将数据分组为不同的簇输出分类器 (如决策树、SVM)和预测的类别标签数据的簇划分结果 (每个数据点属于哪个簇)评价准确率、精确率、召回率等 (有标准答案)轮廓系数、Calinski-Harabasz指数等 (无绝对标准)核心知识点监督学习与无监督学习的根本区别。分类需要先验知识标签目的是预测聚类是探索数据内在结构目的是发现。2. 列举并简要说明两种常用的聚类算法如K-Means和DBSCAN的核心思想及优缺点。算法核心思想优点缺点K-Means1. 随机选择K个初始中心点。2.将每个点分配到最近的中心点形成簇。3. 重新计算每个簇的中心点均值。4. 重复2-3步直至中心点不再变化或达到迭代次数。1.原理简单实现容易效率高。2. 对于球状簇效果很好。1. 必须预先指定K值。2. 对初始中心点敏感可能收敛到局部最优。3. 对噪声和离群点敏感。4. 不适合非凸形状的簇。DBSCAN1. 基于密度核心点邻域内点数≥MinPts、边界点、噪声点。2. 从核心点出发密度可达的点形成一个簇。3. 不属于任何簇的点标记为噪声。1. 无需预先指定簇数。2. 能发现任意形状的簇。3. 能有效识别噪声点对噪声鲁棒。1. 对参数(邻域半径ε, MinPts)敏感。2. 在高维数据上效果下降“维度灾难”。3. 对密度差异大的簇效果不佳。核心知识点掌握划分聚类与密度聚类的代表性算法理解其参数、假设、适用场景及局限性。3. 什么是过拟合(Overfitting)在模型训练中可以采取哪些策略来缓解过拟合过拟合定义模型在训练集上表现非常好误差很小但在未知的测试集或新数据上表现很差误差很大。模型过度学习了训练数据中的噪声和细节导致泛化能力下降。缓解策略获取更多数据从根本上提供更多样化的样本。数据增强对现有数据做变换如旋转、裁剪、加噪声增加数据多样性。降低模型复杂度使用更简单的模型如减少树深度、减少神经网络层数或神经元数。正则化在损失函数中加入惩罚项如L1/L2正则化限制参数大小。集成方法使用Bagging如随机森林或Boosting如XGBoost来平均多个模型的预测降低方差。早停法在训练迭代过程中当验证集误差不再下降时提前停止训练。Dropout在神经网络训练中随机“丢弃”一部分神经元防止对特定神经元的过度依赖。核心知识点理解偏差-方差权衡。过拟合是高方差、低偏差的表现。缓解策略的核心是降低模型复杂度和增加数据/噪声鲁棒性。4. 简述协同过滤推荐系统的基本原理并比较User-User CF和Item-Item CF的异同。基本原理基于“物以类聚人以群分”的假设。利用用户的历史行为数据如评分、点击、购买找到与目标用户兴趣相似的用户(User-based)或者找到与目标物品相似的其他物品(Item-based)然后基于这些相似性进行预测和推荐。User-User CF vs Item-Item CF方面User-User 协同过滤Item-Item 协同过滤核心思想找到与目标用户兴趣相似的用户用这些“邻居”的喜好来预测目标用户的喜好。找到与目标物品相似的其他物品用用户对相似物品的喜好来预测对目标物品的喜好。相似度计算计算用户之间的相似度如余弦相似度、皮尔逊相关系数。计算物品之间的相似度如余弦相似度、调整余弦相似度。推荐理由“和你相似的人也喜欢这个”。“喜欢这个物品的人也喜欢那个”。优点直观易于解释能发现用户潜在的新兴趣。物品相似度比用户相似度更稳定可离线计算实时推荐快。缺点用户数量大时计算用户相似度矩阵开销大用户兴趣变化快矩阵需频繁更新。对物品冷启动问题无能为力推荐结果新颖性可能不足。适用场景用户数相对较少用户兴趣社区明显的场景。物品数相对稳定用户行为数据丰富的场景如电商、视频。核心知识点理解协同过滤的两种基本范式及其背后的用户/物品相似度矩阵。掌握它们各自的计算复杂度、实时性要求和冷启动问题的差异。四、计算与应用题共50分1. 关联规则计算10分交易记录T1: {牛奶面包尿布}T2: {可乐面包尿布啤酒}T3: {牛奶尿布啤酒鸡蛋}T4: {面包牛奶尿布啤酒}T5: {面包牛奶尿布可乐}总交易数 N 5。最小支持度 min_sup 0.4最小置信度 min_conf 0.6。(1) 计算项集{牛奶尿布}的支持度。包含 {牛奶尿布} 的交易有T1, T3, T4, T5。共4条。*支持度 4 / 5 0.8。(2) 对于规则{牛奶} - {尿布}计算其支持度和置信度。支持度({牛奶} - {尿布}) 支持度({牛奶尿布}) 0.8。包含 {牛奶} 的交易有T1, T3, T4, T5。共4条。置信度 支持度({牛奶尿布}) / 支持度({牛奶}) (4/5) / (4/5) 1.0。(3) 该规则是否满足最小支持度和最小置信度阈值它是一条强关联规则吗支持度(0.8) min_sup(0.4)满足。置信度(1.0) min_conf(0.6)满足。同时满足最小支持度和最小置信度阈值因此是一条强关联规则。核心知识点掌握支持度和置信度的计算公式并能根据交易数据熟练计算。理解强关联规则的定义。2. K-Means算法应用15分给定点A(1,1), B(1,2), C(2,1), D(5,4), E(5,5), F(6,4)。初始中心C1(1,1), C2(5,4)。(1) (2) 使用欧氏距离分配点到最近的簇并写出第一次迭代后两个簇的成员点。计算每个点到两个初始中心的欧氏距离点A(1,1): d(C1)0, d(C2)5.0 →簇1点B(1,2): d(C1)1.0, d(C2)4.47 →簇1点C(2,1): d(C1)1.0, d(C2)4.24 →簇1点D(5,4): d(C1)5.0, d(C2)0 →簇2点E(5,5): d(C1)5.66, d(C2)1.0 →簇2点F(6,4): d(C1)5.83, d(C2)1.0 →簇2第一次迭代后簇1成员A, B, C簇2成员D, E, F(3) 计算第一次迭代后新的簇中心坐标。新簇1中心((112)/3, (121)/3) (4/3, 4/3) ≈ (1.33, 1.33)新簇2中心((556)/3, (454)/3) (16/3, 13/3) ≈ (5.33, 4.33)核心知识点掌握K-Means单次迭代过程计算距离、分配簇、重新计算中心。熟练进行欧氏距离和均值计算。3. 模型评估与代码实现15分(1) 根据混淆矩阵计算评估指标。首先根据表格构建混淆矩阵假设1为正类0为负类真正例(TP)真实为1预测为1 → 第1,5, 6行 →3个假正例(FP)真实为0预测为1 → 第4行 → 1个真负例(TN)真实为0预测为0 → 第2, 7, 8行 → 3个假负例(FN)真实为1预测为0 → 第3行 → 1个计算指标准确率(Accuracy) (TPTN) / (TPTNFPFN) (33) / 8 0.75精确率(Precision) TP / (TPFP) 3 / (31) 0.75召回率(Recall) TP / (TPFN) 3 / (31) 0.75(2) Python代码实现from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score y_true [1, 0, 1, 0, 1, 1, 0, 0] y_pred [1, 0, 0, 1, 1, 1, 0, 0] acc accuracy_score(y_true, y_pred) prec precision_score(y_true, y_pred) # 默认以1为正类 rec recall_score(y_true, y_pred) # 默认以1为正类 f1 f1_score(y_true, y_pred) print(f准确率: {acc:.2f}) # 输出准确率: 0.75 print(f精确率: {prec:.2f}) # 输出精确率: 0.75 print(f召回率: {rec:.2f}) # 输出召回率: 0.75 print(fF1-score: {f1:.2f}) # 输出F1-score: 0.75核心知识点掌握混淆矩阵的构建TP, FP, TN, FN并能据此手工计算准确率、精确率、召回率。熟悉使用scikit-learn的metrics模块进行自动化计算。4. 综合案例分析10分(1) 定义题目“相似性”的度量思路基于文本内容的相似性将题目文本向量化如使用TF-IDF、Word2Vec或BERT等模型然后计算向量之间的余弦相似度或欧氏距离。这可以捕捉题目在知识点、题型、语言描述上的相似度。基于答题行为的协同相似性如果大量学生都答对了题目A和题目B或者都在题目A和题目B上花费了相似的时间则认为题目A和题目B是相似的。这类似于Item-Item协同过滤利用学生群体的集体行为模式来定义题目间的关联性。(2) 构建题目“难度”评估模型的特征历史正确率所有学生作答该题目的平均正确率。这是最直接的难度指标。平均作答时间学生解答该题目所花费的平均时间。通常难度越大的题目耗时越长需排除因太简单而秒答的情况。知识点标签与组合题目所考察的知识点如“分数加法”、“追及问题”。包含多个知识点或高阶知识点的题目通常更难。题目交互特征如学生在解答该题时的犹豫次数鼠标在选项间移动、修改答案的次数、或求助如点击提示的频率。这些隐式行为能反映题目的认知挑战程度。核心知识点将数据挖掘技术文本挖掘、协同过滤应用于实际业务场景教育推荐。理解如何从用户行为日志和内容本身两个维度提取特征构建可量化的指标相似度、难度。参考来源重庆工商大学应统大数据分析技术Python数据挖掘期末考试题库选择题1-14参考答案python数据挖掘例题_python数据挖掘试题四十道你敢来挑战吗数据仓库期末复习题大学python题库及答案解析,大学生python期末解答题机器学习入门从概念到实践的全面解析