机器学习与模式识别第九章逻辑回归1 考点压缩

📅 2026/7/4 4:11:50

第九章Logistic Regression (1) — 知识点笔记综合来源Lecture 09 PDF73页、课堂笔记CSDN占位图9.1 分类任务三种分类问题类型输出例子二分类Binaryy∈{0,1}y \in \{0,1\}y∈{0,1}垃圾邮件检测、疾病诊断多分类Multi-classy∈{1,…,K}y \in \{1,\ldots,K\}y∈{1,…,K}图像标注、情感分析结构化预测结构化对象翻译、ChatGPT为什么不能直接用最小二乘⭐⭐问题说明输出范围不匹配线性回归输出(−∞,∞)(-\infty,\infty)(−∞,∞)但分类需要[0,1][0,1][0,1]→ 截断不自然MSE非凸在逻辑回归参数空间中MSE有多个局部最小值MSE惩罚有界最大误差被封顶在1预测值限于[0,1]标签0/1 → MSE≤1高斯噪声假设不成立最小二乘隐含高斯噪声→不适用于{0,1}二值数据结论分类需要新的模型新的误差函数9.2 Sigmoid函数 ⭐定义σ(t)11e−t\sigma(t) \frac{1}{1 e^{-t}}σ(t)1e−t1性质性质说明定义域(−∞,∞)(-\infty, \infty)(−∞,∞)值域(0,1)(0, 1)(0,1)→ 天然适合表示概率对称性关于(0,0.5)(0, 0.5)(0,0.5)中心对称σ(−t)1−σ(t)\sigma(-t) 1 - \sigma(t)σ(−t)1−σ(t)导数σ′(t)σ(t)(1−σ(t))\sigma(t) \sigma(t)(1-\sigma(t))σ′(t)σ(t)(1−σ(t))简洁反函数Logit函数ln⁡p1−p\ln\frac{p}{1-p}ln1−pp缩放和平移AAA增大→水平压缩→更陡峭BBB增大→负水平平移9.3 逻辑回归模型 ⭐⭐模型形式P(y1∣x)σ(wTx)11e−wTxP(y1|\mathbf{x}) \sigma(\mathbf{w}^T\mathbf{x}) \frac{1}{1 e^{-\mathbf{w}^T\mathbf{x}}}P(y1∣x)σ(wTx)1e−wTx1P(y0∣x)1−σ(wTx)σ(−wTx)P(y0|\mathbf{x}) 1 - \sigma(\mathbf{w}^T\mathbf{x}) \sigma(-\mathbf{w}^T\mathbf{x})P(y0∣x)1−σ(wTx)σ(−wTx)线性模型的Sigmoid非线性变换 →广义线性模型决策边界wTx0\mathbf{w}^T\mathbf{x}0wTx0线性边界基函数扩展P(y1∣x)σ(wTϕ(x))P(y1|\mathbf{x}) \sigma(\mathbf{w}^T\phi(\mathbf{x}))P(y1∣x)σ(wTϕ(x))基函数可将非线性可分数据映射到线性可分空间9.4 交叉熵损失函数 ⭐⭐⭐MLE推导似然函数伯努利分布p(t∣w)∏nσ(wTxn)tn(1−σ(wTxn))1−tnp(\mathbf{t}|\mathbf{w}) \prod_n \sigma(\mathbf{w}^T\mathbf{x}_n)^{t_n}(1-\sigma(\mathbf{w}^T\mathbf{x}_n))^{1-t_n}p(t∣w)n∏σ(wTxn)tn(1−σ(wTxn))1−tn负对数似然交叉熵Cross-EntropyE(w)−∑n[tnln⁡σ(wTxn)(1−tn)ln⁡(1−σ(wTxn))]E(\mathbf{w}) -\sum_n [t_n \ln \sigma(\mathbf{w}^T\mathbf{x}_n) (1-t_n)\ln(1-\sigma(\mathbf{w}^T\mathbf{x}_n))]E(w)−n∑[tnlnσ(wTxn)(1−tn)ln(1−σ(wTxn))]MSE vs 交叉熵对比 ⭐⭐MSE交叉熵凸性❌ 非凸多局部最小值✅凸函数保证全局最优惩罚❌ 有界最大1✅无界错得离谱→损失→∞优化可能陷入局部最小值梯度下降→全局最优交叉熵的直观理解t1t1t1预测p→0p\to0p→0−ln⁡(p)→∞-\ln(p)\to\infty−ln(p)→∞→ 巨大惩罚t0t0t0预测p→1p\to1p→1−ln⁡(1−p)→∞-\ln(1-p)\to\infty−ln(1−p)→∞→ 巨大惩罚MSE最大惩罚1对自信但错误太温和通过ln放大了误差同时将其凸化9.5 正则化与优化线性可分数据的退化问题数据线性可分→w\mathbf{w}w可无限增大→Sigmoid变阶跃→过拟合加入正则化E(w)λ∥w∥2E(\mathbf{w}) \lambda\|\mathbf{w}\|^2E(w)λ∥w∥2无闭式解交叉熵梯度0 → 非线性方程→无闭式解需梯度下降等迭代优化后续章节讲梯度用于优化∇E(w)∑n(σ(wTxn)−tn)xn\nabla E(\mathbf{w}) \sum_n (\sigma(\mathbf{w}^T\mathbf{x}_n) - t_n)\mathbf{x}_n∇E(w)n∑(σ(wTxn)−tn)xn形式简洁误差(pn−tn)(p_n - t_n)(pn−tn)乘输入xn\mathbf{x}_nxn→ 与线性回归梯度类似。9.6 决策后验损失决策流程Input x→模型输出P(y∣x)→决策规则→预测类别\text{Input }\mathbf{x} \to \text{模型输出} P(y|\mathbf{x}) \to \text{决策规则} \to \text{预测类别}Inputx→模型输出P(y∣x)→决策规则→预测类别默认P(y1∣x)0.5P(y1|\mathbf{x}) 0.5P(y1∣x)0.5→ 预测类别1可调整阈值考虑不等代价拒绝选项当概率在[1−θ,θ][1-\theta, \theta][1−θ,θ]之间时拒绝决策期望损失最小化不同错误类型有不同代价→选择使期望损失最小的决策笔记中的图片索引序号图片内容描述来源位置图1线性回归拟合二分类数据(输出超出[0,1])Lecture 09 第11-13页图2Sigmoid函数曲线及性质Lecture 09 第29-32页图3逻辑回归Sigmoid拟合二分类Lecture 09 第37页图4MSE vs 交叉熵误差曲面(凸vs非凸)Lecture 09 第53页图5线性可分数据的退化问题Lecture 09 第58-59页笔记整理时间2026年6月28日

新闻详情

相关阅读

【Java八股|第9篇】final、finally、finalize 区别详解

LTE B13和GPS的冲突：为什么一个谐波问题能把整机射频逼到极限？

AI 编程助手太烧 Token？caveman | 这个开源项目可以砍掉近七成的文字！

ComfyUI-WanVideoWrapper：一站式AI视频生成工作流解决方案

InvenTree开源库存管理系统：从零件管理到生产跟踪的完整解决方案

Laravel Lumen框架终极指南：5步构建高性能PHP微服务应用

GLM-5.1与Qwen3.6-Plus实战对比：AI编程模型如何真正融入开发流

Taste-Skill完全配置指南：告别AI生成的平庸前端设计

3步搭建你的AI放射科医生：MedRAX胸部X光智能诊断系统终极指南 [特殊字符]

洞态IAST自定义规则实战：从原理到配置，打造精准漏洞检测

无需登录本地部署Codex代理，实现DeepSeek大模型免认证调用

Playwright自动化测试实战：从零搭建现代Web测试框架

管理者的六个层次

华为OD机试2025C卷-座位调整[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

CrabCode v1.0.7与v1.0.8 更新速览！

FAE放射组学分析工具：医学影像特征探索的完整解决方案

基于Dify与DeepSeek构建私有知识库问答系统实战指南

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！