ML_Interview_100_times

第一章 特征工程

  1. ​ 对于一个机器学习问题,数据和特征往往觉得了结果的上限,而模型算、算法的选择及优化则是逐步逼近这个上限,课件特征工程的重要性。

    特征工程,对一组原始数据进行一系列工程处理,将其提炼为特征,作为输入供算法和模型使用。

    两种数据结构

  1. 两种常见的数据结构

    • 结构化数据
      • 看作关系型数据库的一张表,每一列都有清晰的定义,包含数值型、类别性两种基本类型。
    • 非结构化数据
      • 包括文本、图形、音频、视频,包含的信息无法用一个简单的数值表示,也没有清晰的定义,每一条的大小各不相同。

    01 特征归一化

    为了消除数据特征之间的量纲影响,我们需要对特征进行归一化处理。使得不同的指标之间具有可比性。

    (1) 线性函数归一化($Min-Max Scaling$)。

    归一化公式为:

    1

    (2) 零均值归一化($Z-Score Normalization$)。将原始数据映射到均值为0,标准差为1的分布。

    2