第一章 特征工程
对于一个机器学习问题,数据和特征往往觉得了结果的上限,而模型算、算法的选择及优化则是逐步逼近这个上限,课件特征工程的重要性。
特征工程,对一组原始数据进行一系列工程处理,将其提炼为特征,作为输入供算法和模型使用。
两种数据结构
两种常见的数据结构
- 结构化数据
- 看作关系型数据库的一张表,每一列都有清晰的定义,包含数值型、类别性两种基本类型。
- 非结构化数据
- 包括文本、图形、音频、视频,包含的信息无法用一个简单的数值表示,也没有清晰的定义,每一条的大小各不相同。
01 特征归一化
为了消除数据特征之间的量纲影响,我们需要对特征进行归一化处理。使得不同的指标之间具有可比性。
(1) 线性函数归一化($Min-Max Scaling$)。
归一化公式为:

(2) 零均值归一化($Z-Score Normalization$)。将原始数据映射到均值为0,标准差为1的分布。

- 结构化数据