第一节 统计学习的定义与分类
统计学习的应用
统计学习的概念
主要特点
(1)以计算机及网络为平台,是建立在计算机及网络上的
(2)以数据为研究对象,是数据驱动的学科
(3)目的是对数据进行预测与分析
(4)以方法为中心,统计学习方法构建模型并应用模型进行预测与分析
(5)是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科,并且在发展中逐步形成独自的理论体系与方法论。
三要素
统计学习方法包括模型的假设空间、模型选择的准则以及模型学习的算法。称其为统计学习方法的三要素,简称为模型
(model)、策略
(strategy)和算法
(algoriithm)。
统计学习方法的步骤
统计学习的分类
第二节统计学习的基本分类
监督学习
无监督学习
强化学习
第三节统计学习的三要素
监督学习:模型
监督学习:策略
监督学习:算法
- 算法:如何求解最优模型的问题
- 若优化问题存在显式解析解,算法简易
- 通常不存在解析解,需要数值计算方法,比如梯度下降法
无监督学习:三要素
第四节模型的评估和选择
训练误差与测试误差
训练误差
测试误差
误差率与准确率
过拟合与模型选择
*** 多项式拟合案例***
过拟合
预测误差与模型复杂度
第五章正则化与交叉验证
正则化
交叉验证
数据充足情况下:
- 训练集:用以训练模型
- 验证集:用以选择模型
- 测试集:用以最终对学习方法的评估