线性回归的核心思想和原理
1.线性回归的可解释性:线性模型具有很好的可解释性,是许多复杂算法的基础。 2.奥卡姆剃刀原理:简单性原则,线性算法常用于复杂任务。 3.KNN与线性算法的区别:KNN基于距离分类,线性算法通过找到一条线进行分类或回归。 4.线性算法的适用场景:更适合处理连续空间问题,如房价与面积、股价与时间的关系。
一元线性回归
1.定义:数据点只有一个特征时的线性回归。 2.目标:找到一条直线,使所有样本点到直线的距离之和最小。 3.最优化问题:通过民主投票的方式,找到使得目标函数最小的参数k和b。 4.损失函数:通常使用欧式距离的平方和。 5.参数求解:通过最小二乘法,得到参数k和b的计算公式。
多元线性回归
1.定义:处理多个特征时的线性回归。 2.矩阵表示:将特征向量和参数向量放入矩阵中,简化运算。 3.目标函数:使所有样本点到超平面的距离之和最小。 4.参数求解:通过正规方程,求解参数向量w。 5.实际应用:工程实践中更常用梯度下降法。
多项式回归
1.定义:处理非线性关系时的回归,通过多项式拟合数据。 2.变量替换:将原特征变量替换为多项式变量,将非线性问题转化为线性问题。 3.示例:如将x替换为x平方和原x,得到一个线性回归模型。
线性算法的统一性
1.线性回归、多项式回归和逻辑回归等算法在机器学习中占有重要地位。 2.这些算法背后有统一的数学原理和思想。 3.通过对比学习,可以更清晰地理解这些算法的原理和实现方法。
线性算法的优缺点
1.线性算法的优点包括可解释性强、建模迅速、适用于线性分布的数据。 2.缺点包括对异常值敏感、难以表达复杂的非线性数据。 3.线性算法对数据有一定的假设,适用于具有线性关系的数据集。
线性回归的优缺点
1.优点:简单易理解、理论简单、建模迅速、适用于小数据量简单的关系。 2.缺点:对异常值敏感、难以表达复杂的非线性数据。 3.线性回归模型虽然简单,但应用广泛,特别是在特征工程阶段。
多项式回归的优缺点
1.优点:可以拟合非线性数据、使用随机梯度下降法进行快速训练。 2.缺点:设计有挑战性、容易产生过拟合、对异常值敏感。 3.多项式回归适用于对数据结构和特征变量有一定了解的情况。
逻辑回归的优缺点
1.优点:模型清晰、可解释性强、输出有概率意义、计算量小、适用于大数据场景。 2.缺点:处理不好特征间的相关性、难以处理数据不平衡问题、精度不高。 3.逻辑回归适用于二分类问题、概率预测和影响因素分析等场景。
面试常见问题及答案:
基本概念类
问题 1:什么是线性回归?
答案:线性回归是一种用于建立自变量(特征)与因变量(目标)之间线性关系的统计和机器学习方法 。简单来说,它假设因变量和自变量之间存在线性关系,通过最小化误差的方式找到最佳拟合的直线(一元线性回归)或超平面(多元线性回归)。例如,在预测房价时,以房屋面积、房龄等作为自变量,房价作为因变量,构建线性模型来描述它们之间的关系。
问题 2:线性回归的基本假设是什么?
答案:
- 线性关系:因变量和自变量之间存在线性关系,即可以用直线或超平面来描述它们的关系。
- 随机抽样:数据是通过随机抽样得到的,保证样本的随机性和代表性。
- 无多重共线性:自变量之间不存在高度的线性相关关系。若存在多重共线性,会使回归系数的估计不稳定,方差增大。
- 误差独立:观测值的误差相互独立,一个观测值的误差不受其他观测值误差的影响。
- 同方差性:在自变量的每个取值点上,观测值的误差方差都是常数。
- 误差正态性:观测值的误差服从正态分布 。
模型评估与解释类
问题 1:R² 和调整 R² 有什么区别?
答案:R²(决定系数)衡量的是回归模型对因变量变异的解释程度,取值范围在 0 - 1 之间,R² 越接近 1,说明模型对数据的拟合效果越好。其计算公式为R2=1−SSTSSE ,其中 SSE 是残差平方和,SST 是总离差平方和。调整 R² 则在 R² 的基础上,考虑了自变量的数量。当增加自变量时,如果新增加的自变量对模型的解释力没有显著提升,调整 R² 会减小。它可以避免因过多引入无关自变量导致 R² 虚高的情况,更适合用于比较包含不同数量自变量的回归模型的拟合优度 。
问题 2:如何解释回归系数和 p 值?
答案:回归系数表示在其他自变量保持不变的情况下,该自变量每变动一个单位,因变量的平均变动量 。比如在房价预测模型中,房屋面积对应的回归系数为 500,表示房屋面积每增加 1 平方米,房价平均增加 500 元。p 值用于检验回归系数是否显著不为零,通常与显著性水平(如 0.05)比较。如果 p 值小于显著性水平,说明该自变量与因变量之间存在显著的线性关系;若 p 值大于显著性水平,则不能拒绝该自变量系数为零的原假设,意味着该自变量对因变量的影响不显著 。
问题 3:F 统计量和 t 检验在线性回归中的作用是什么?
答案:F 统计量用于检验整个回归模型的显著性,即检验所有自变量作为一个整体是否对因变量有显著影响。原假设是所有回归系数都为零(自变量对因变量无影响),若 F 统计量对应的 p 值小于给定的显著性水平(如 0.05) ,则拒绝原假设,说明至少有一个自变量对因变量有显著影响。t 检验用于检验单个回归系数的显著性,原假设是该回归系数为零,通过计算 t 统计量及其对应的 p 值来判断该自变量是否对因变量有显著影响 。
特征选择与问题处理类
问题 1:LASSO(L1 正则化)和 Ridge(L2 正则化)的应用场景是什么?
答案:LASSO(L1 正则化)通过在损失函数中加入回归系数绝对值之和的惩罚项,能够使一些回归系数变为零,从而实现特征选择的目的。适用于自变量较多且希望筛选出关键变量的场景,比如基因数据的分析,基因数量众多,可利用 LASSO 筛选出对目标性状有显著影响的基因。Ridge(L2 正则化)在损失函数中添加回归系数平方和的惩罚项,主要作用是防止模型过拟合,当自变量之间存在多重共线性时,Ridge 回归可以使回归系数的估计更加稳定 。
问题 2:如何检测和解决线性回归中的多重共线性问题?
答案:检测方法常用方差膨胀因子(VIF) ,一般认为 VIF 大于 5 或 10(不同标准)时,存在严重多重共线性。解决方法有:使用 Ridge 回归,通过 L2 正则化使系数估计更稳定;主成分分析(PCA),将多个相关的自变量转换为少数几个不相关的主成分,再用主成分进行回归建模 。
问题 3:如何处理线性回归中的异方差性?
答案:可以采用对数变换,对因变量或自变量取对数,可能会改善异方差性;也可以使用加权回归,给不同观测值赋予不同权重,使方差较小的观测值权重更大,方差较大的观测值权重更小 。
问题 4:如何避免线性回归中的过拟合?
答案:可以使用 LASSO(L1 正则化)进行特征选择,减少不必要的自变量;采用交叉验证,将数据集划分为训练集和验证集,选择在验证集上表现最好的模型参数;还可以适当增加样本数量,使模型能学习到更普遍的规律 。