第九章Logistic Regression (1) — 知识点笔记综合来源Lecture 09 PDF73页、课堂笔记CSDN占位图9.1 分类任务三种分类问题类型输出例子二分类Binaryy∈{0,1}y \in \{0,1\}y∈{0,1}垃圾邮件检测、疾病诊断多分类Multi-classy∈{1,…,K}y \in \{1,\ldots,K\}y∈{1,…,K}图像标注、情感分析结构化预测结构化对象翻译、ChatGPT为什么不能直接用最小二乘⭐⭐问题说明输出范围不匹配线性回归输出(−∞,∞)(-\infty,\infty)(−∞,∞)但分类需要[0,1][0,1][0,1]→ 截断不自然MSE非凸在逻辑回归参数空间中MSE有多个局部最小值MSE惩罚有界最大误差被封顶在1预测值限于[0,1]标签0/1 → MSE≤1高斯噪声假设不成立最小二乘隐含高斯噪声→不适用于{0,1}二值数据结论分类需要新的模型新的误差函数9.2 Sigmoid函数 ⭐定义σ(t)11e−t\sigma(t) \frac{1}{1 e^{-t}}σ(t)1e−t1性质性质说明定义域(−∞,∞)(-\infty, \infty)(−∞,∞)值域(0,1)(0, 1)(0,1)→ 天然适合表示概率对称性关于(0,0.5)(0, 0.5)(0,0.5)中心对称σ(−t)1−σ(t)\sigma(-t) 1 - \sigma(t)σ(−t)1−σ(t)导数σ′(t)σ(t)(1−σ(t))\sigma(t) \sigma(t)(1-\sigma(t))σ′(t)σ(t)(1−σ(t))简洁反函数Logit函数lnp1−p\ln\frac{p}{1-p}ln1−pp缩放和平移AAA增大→水平压缩→更陡峭BBB增大→负水平平移9.3 逻辑回归模型 ⭐⭐模型形式P(y1∣x)σ(wTx)11e−wTxP(y1|\mathbf{x}) \sigma(\mathbf{w}^T\mathbf{x}) \frac{1}{1 e^{-\mathbf{w}^T\mathbf{x}}}P(y1∣x)σ(wTx)1e−wTx1P(y0∣x)1−σ(wTx)σ(−wTx)P(y0|\mathbf{x}) 1 - \sigma(\mathbf{w}^T\mathbf{x}) \sigma(-\mathbf{w}^T\mathbf{x})P(y0∣x)1−σ(wTx)σ(−wTx)线性模型的Sigmoid非线性变换 →广义线性模型决策边界wTx0\mathbf{w}^T\mathbf{x}0wTx0线性边界基函数扩展P(y1∣x)σ(wTϕ(x))P(y1|\mathbf{x}) \sigma(\mathbf{w}^T\phi(\mathbf{x}))P(y1∣x)σ(wTϕ(x))基函数可将非线性可分数据映射到线性可分空间9.4 交叉熵损失函数 ⭐⭐⭐MLE推导似然函数伯努利分布p(t∣w)∏nσ(wTxn)tn(1−σ(wTxn))1−tnp(\mathbf{t}|\mathbf{w}) \prod_n \sigma(\mathbf{w}^T\mathbf{x}_n)^{t_n}(1-\sigma(\mathbf{w}^T\mathbf{x}_n))^{1-t_n}p(t∣w)n∏σ(wTxn)tn(1−σ(wTxn))1−tn负对数似然 交叉熵Cross-EntropyE(w)−∑n[tnlnσ(wTxn)(1−tn)ln(1−σ(wTxn))]E(\mathbf{w}) -\sum_n [t_n \ln \sigma(\mathbf{w}^T\mathbf{x}_n) (1-t_n)\ln(1-\sigma(\mathbf{w}^T\mathbf{x}_n))]E(w)−n∑[tnlnσ(wTxn)(1−tn)ln(1−σ(wTxn))]MSE vs 交叉熵对比 ⭐⭐MSE交叉熵凸性❌ 非凸多局部最小值✅凸函数保证全局最优惩罚❌ 有界最大1✅无界错得离谱→损失→∞优化可能陷入局部最小值梯度下降→全局最优交叉熵的直观理解t1t1t1预测p→0p\to0p→0−ln(p)→∞-\ln(p)\to\infty−ln(p)→∞→ 巨大惩罚t0t0t0预测p→1p\to1p→1−ln(1−p)→∞-\ln(1-p)\to\infty−ln(1−p)→∞→ 巨大惩罚MSE最大惩罚1对自信但错误太温和通过ln放大了误差同时将其凸化9.5 正则化与优化线性可分数据的退化问题数据线性可分→w\mathbf{w}w可无限增大→Sigmoid变阶跃→过拟合加入正则化E(w)λ∥w∥2E(\mathbf{w}) \lambda\|\mathbf{w}\|^2E(w)λ∥w∥2无闭式解交叉熵梯度0 → 非线性方程→无闭式解需梯度下降等迭代优化后续章节讲梯度用于优化∇E(w)∑n(σ(wTxn)−tn)xn\nabla E(\mathbf{w}) \sum_n (\sigma(\mathbf{w}^T\mathbf{x}_n) - t_n)\mathbf{x}_n∇E(w)n∑(σ(wTxn)−tn)xn形式简洁误差(pn−tn)(p_n - t_n)(pn−tn)乘输入xn\mathbf{x}_nxn→ 与线性回归梯度类似。9.6 决策 后验 损失决策流程Input x→模型输出P(y∣x)→决策规则→预测类别\text{Input }\mathbf{x} \to \text{模型输出} P(y|\mathbf{x}) \to \text{决策规则} \to \text{预测类别}Inputx→模型输出P(y∣x)→决策规则→预测类别默认P(y1∣x)0.5P(y1|\mathbf{x}) 0.5P(y1∣x)0.5→ 预测类别1可调整阈值考虑不等代价拒绝选项当概率在[1−θ,θ][1-\theta, \theta][1−θ,θ]之间时拒绝决策期望损失最小化不同错误类型有不同代价→选择使期望损失最小的决策笔记中的图片索引序号图片内容描述来源位置图1线性回归拟合二分类数据(输出超出[0,1])Lecture 09 第11-13页图2Sigmoid函数曲线及性质Lecture 09 第29-32页图3逻辑回归Sigmoid拟合二分类Lecture 09 第37页图4MSE vs 交叉熵误差曲面(凸vs非凸)Lecture 09 第53页图5线性可分数据的退化问题Lecture 09 第58-59页笔记整理时间2026年6月28日