一、特征工程核心概念
什么是特征工程?
生活比喻:假设你要教机器人识别猫狗照片
➊ 原始数据:一堆未分类的动物照片(像素点集合)
➋ 特征工程:提取耳朵形状、胡须长度、眼睛颜色等关键特征
➌ 结果:机器人通过"尖耳朵>3cm + 有胡须"判断为猫
1.1 定义与重要性
特征工程是机器学习流程中通过数据转换和特征构造提升模型性能的关键环节。"数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限"这一经典论断揭示了其核心价值。特征工程包含数据预处理、特征构造、特征选择和特征降维等核心环节。
1.2 核心目标体系
-
维度无关性:消除特征量纲差异(归一化)
-
分布标准化:调整数据分布形态(标准化)
-
信息增益最大化:通过特征选择提取有效信息
-
表征能力强化:通过特征衍生提升表达能力
二、核心处理方法详解
2.1 数据预处理技术矩阵
(1) 归一化处理
数学实现:
-
Min-Max归一化:
-
均值归一化:
-
向量归一化:
典型场景:
-
图像处理(像素值标准化)
-
距离敏感模型(KNN、SVM)
-
神经网络输入预处理
(2) 标准化处理
Z-Score标准化:
优势体现:
-
保持异常值结构
-
适用于高斯分布数据
-
加速梯度下降收敛