《统计学习方法》（李航）——学习笔记

迪丽瓦拉

2024-05-31 15:08:22

0次

第一章概论

统计学习，又称统计机器学习（机器学习），现在提到的机器学习往往指的就是统计机器学习。

统计学习研究的对象是数据，其对数据的基本假设是同类数据存在一定的统计规律性，因此可以用概率统计方法处理他们：用随机变量描述数据中的特征，用概率分布描述数据的统计规律，然后基于数据构建概率统计模型从而对数据进行预测和分析。

统计学习假设数据是独立同分布（i.i.d.）

1.1 统计学习的分类

统计学习方法一般包括一下几种：

监督学习

监督学习假设输入随机变量X和输出随机变量Y遵循联合概率分布 $\text{[math]}$ 。

监督学习的模型可以是概率模型：条件概率分布 $\text{[math]}$ ，也可以是非概率模型：决策函数 $\text{[math]}$ 。对具体的输入做预测，写作 $\text{[math]}$ 或 $\text{[math]}$ 。通过学习（训练）得到一个模型为条件概率分布 $\text{[math]}$ 或决策函数 $\text{[math]}$ 。

无监督学习

无监督学习的本质是学习数据中的统计规律或潜在结构。

假设 $\text{[math]}$ 是输入空间， $\text{[math]}$ 是隐式结构空间，无监督学习要学习的模型可表示为 $\text{[math]}$ 或条件概率分布 $\text{[math]}$ 或 $\text{[math]}$

强化学习

半监督学习与主动学习

统计学习按照模型的种类，可分为：

概率模型和非概率模型（二者区别不在于输入与输出映射关系，而在于模型内部结构）

概率模型：决策树、朴素贝叶斯、隐马尔可夫模型、条件随机场、概率潜在语义分析、潜在狄利克雷分配、高斯混合模型。代表是概率图模型（贝叶斯网络、马尔科夫随机场、条件随机场）

非概率模型：感知机、支持向量机、k近邻、AdaBoost、k均值、潜在语义分析、神经网络

线性模型和非线性模型

线性模型：感知机、线性支持向量机、k近邻、k均值、潜在语义分析

非线性模型：核函数支持向量机、AdaBoost、神经网络

参数化模型和非参数化模型

按照算法来分，可以分为：在线学习和批量学习

按照技巧来分，可以分为：贝叶斯学习和核方法

1.2 统计学习三要素

统计学习三要素：模型、策略、算法。

在监督学习中，模型就是所要学习的条件概率分布或决策函数。算法指学习模型的具体计算方法，可以利用已有的最优化算法，有时也需要开发独自的最优化算法。策略是按照什么样的准则从模型的假设空间 $\text{[math]}$ 中选取最优模型。下面主要讲策略。

损失函数度量模型一次预测的好坏，风险函数度量平均意义下模型预测的好坏。

期望风险 $\text{[math]}$ 是模型关于联合分布 $\text{[math]}$ 的期望损失；经验风险 $\text{[math]}$ 是模型关于训练样本集的平均损失。根据大数定律，当样本容量N趋于无穷时，经验风险趋于期望风险。所以一个很自然地想法就是用经验风险估计期望风险。答案现实中样本往往是有限的，所以用经验风险估计期望风险往往不是很理想，要对经验风险进行一定矫正。

这就引出了监督学习两个基本策略：经验风险最小化和结构风险最小化。

经验风险最小化就是我们在监督学习训练模型的时候，最小化经验风险（训练集的平均损失）；结构风险最小化等价于正则化，就是再经验风险上加上表示模型复杂度的正则化项或罚项。

经验或结构风险函数就是最优化的目标函数。

// 泛函：函数的函数。

1.3 泛化能力

泛化误差：学习到的模型对未知数据预测的误差，即为泛化误差。事实上，泛化误差就是所学习到的模型的期望风险。

泛化误差上界：TODO

1.4 生成模型与判别模型

监督学习方法可以分为生成方法和判别方法，学到的模型分别是生成模型和判别模型。

生成模型：由数据学习联合概率分布 $\text{[math]}$ ，然后求出条件概率分布 $\text{[math]}$ 作为预测的模型。即： $\text{[math]}$ 。

这类方法之所以称为生成方法，是因为模型表示了给定输入X产生输出Y的生成关系。

典型的生成模型：朴素贝叶斯法、隐马尔可夫模型

判别模型：由数据直接学习决策函数 $\text{[math]}$ 或条件概率分布 $\text{[math]}$ 作为预测的模型。

判别方法关心的是对给定的输入X，应该预测什么样的输出Y

典型的判别模型：k近邻法、感知机、逻辑斯蒂回归模型、最大熵模型、支持向量机、提升方法和条件随机场。

两类方法的优缺点：

生成方法：

生成方法可以还原出联合概率分布 $\text{[math]}$ ，判别方法不能

生成方法的收敛速度更快

当存在隐变量时，仍可以用生成方法学习，但不能用判别方法

判别方法：

判别方法直接学习条件概率 $\text{[math]}$ 或决策函数 $\text{[math]}$ ，直接面对预测，往往学习准确率更高；

由于直接学习 $\text{[math]}$ 或 $\text{[math]}$ ，可以对数据进行各种程度上的抽象，定义特征并使用特征，因此可以简化学习问题。

词库加载错误:未能找到文件“E:\highferrum_mysql\Configuration\Dict_Stopwords.txt”。

上一篇：TiDB数据库架构概述

下一篇：计算机中信息的表示和处理整数和小数的二进制表示

《统计学习方法》（李航）——学习笔记

第一章概论

1.1 统计学习的分类

1.2 统计学习三要素

1.3 泛化能力

1.4 生成模型与判别模型

相关内容

热门资讯

《统计学习方法》（李航）——学习笔记

第一章 概论

1.1 统计学习的分类

1.2 统计学习三要素

1.3 泛化能力

1.4 生成模型与判别模型

相关内容

热门资讯

第一章概论