吃瓜笔记task01_随笔

吃瓜笔记task01 第一章绪论 1.1 引言

机器学习主要研究的是关于在计算机上从数据中产生“模型”的算法。

1.2 基本概念 1.2.1 一部分名词解释

比较口语化，一些按我自己的理解梳理，如有不足，感谢指出

1.2.2 看书时的一些想法

就是通过对已有知识（训练集）的学习，生成一个模型，这个模型可以用来预测这类知识中的其他问题，而且这个模型还可以举一反三，不只是简单的模仿，我们要做的就是生成一个好的模型
为啥P5假设空间的大小是 x * 4 * 4 +1 = 65，感觉是3 * 3 * 3
向量机是啥（一会儿去查）
VC维是啥
决策树是啥
奥巴马的竞选团队好流批
ILP现在的发展怎样
我没做习题。。。

第二章模型评估与选择 2.1 部分名词解释

2.2 常用的评估方法 2.2.1 留出法

直接将数据集划分为两个互斥的集合，其中一个集合作为训练集，一个作为验证集。两集合要尽量保证样本分布的的一致性，避免产生额外的偏差，常用的采样方式有分层采样。

单次使用留出法得到的数据不够稳定，一般使用要采用多若干次随机划分、重复进行是评估后取平均值作为结果，常见的分法是将大约2/3~4/5的样本用作训练，剩下的用于测试。

2.2.2 交叉验证法

将数据集分为k个大小相似的互斥子集，然后用k-1个子集作为训练集，剩下的一个作为验证集，称为k折交叉验证，k最常见的取值是10，称为10折交叉验证。

k折交叉验证通常要随机采用不同的划分方式p次，最终结果是这p次k折交叉验证，常见的有10次10折交叉验证。

当k 等于样本个数时，成了交叉验证法的一个特例留一法，留一法使用的训练集比初始数据集只少一个样本，结果往往更加准确，但是比较费电脑，有失有得。

2.2.3 自助法

留出法和交叉验证法可能引入一些因训练样本规模不同而导致的误差，自助法是对数据集进行有放回采样，得到一个有重复的训练集D’,然后D-D’（集合的差运算，A - B = A ∩ cap ∩ ~B）作为验证集。

m个样本的数据集，m次采集中始终不被采集到的概率为（1-m/1)m,取极限得到0.368,也就是有大约1/3的样本在验证集*D-D’*中。

自助法在数据集较小、难以有效划分训练/验证集是很有用，产生的多个不同训练集对集成学习有很大好处，但是*产生的数据集改变了出事数据集的分布，此处有一个疑问，放到后面了。

2.2.4 性能度量

错误率：分类错误的样本数占样本总数的比例
精度：分类正确的样本数占样本总数的比例，精度 = 1 - 错误率
查准率：也叫准确率，预测正确的样本占预测为真的样本总数的比例
查全率：也叫召回率，预测正确的样本占真实为真的总数的比例，查准率与查全率是一对相互矛盾的度量，查准率高就要少选一些，而少选必然导致有更多的真被漏选（好绕呀，我要晕了）
P-R曲线：把样本按照是正例的的可能性降序，按顺序逐个计算查全率、查准率，以查准率为纵坐标，查全率为横坐标作图，得到的曲线
平衡点：当查全率和查准率相等时的点，可以简单度量模型的性能
F1：一个度量性能的值，我也不知道为啥他可以度量，相应的有宏F1和微F1

2.3 看书时的一些想法

欢迎分享，转载请注明来源：内存溢出

吃瓜笔记task01