花书读书笔记（四）-机器学习基础-白红宇

花书读书笔记（四）-机器学习基础

阅读量：320 次

发布时间：2019-03-04

本文共 1308 字，大约阅读时间需要 4 分钟。

一、学习算法

机器学习模型是一种能够从数据中学习的算法。其核心任务可以分为以下几个方面：

任务（Task）：定义了模型需要解决的问题。

性能度量（Performance Metrics）：衡量模型性能的指标。

经验（Experience）：基于已有数据进行模型训练。

二、容量、过拟合和欠拟合

在先前未观测到的输入上表现良好的能力被称为泛化能力。机器学习模型的效果主要取决于以下两个关键因素：

降低训练误差。

缩小训练误差和测试误差的差距。

这两个因素对应机器学习的两个主要挑战：欠拟合和过拟合。欠拟合是指模型在训练集上无法获得足够低的误差，而过拟合则指训练误差与测试误差之间的差距过大。

没有免费午餐定理表明，在所有可能的数据生成分布上平均之后，每一个分类算法在未事先观测的点上都有相同的错误率。这意味着没有一个机器学习算法总是比其他算法更优。

三、超参数和验证集

大多数机器学习算法都有超参数，可以通过调整这些参数来控制算法行为。用于挑选超参数的数据子集被称为验证集（Validation Set）。

四、估计、偏差和方差

点估计通常用(\hat{\theta})来表示。估计的偏差定义为：

[ \text{Bias}(\hat{\theta}_m) = E(\hat{\theta}_m) - \theta ]

偏差为0称为无偏估计。

五、最大似然估计

对(\theta)的最大似然估计定义为：

[ \theta_{ML} = \argmax_{\theta} p_{model}(X; \theta) = \argmax_{\theta} \prod_{i=1}^m p_{model}(x^{(i)}; \theta) ]

为了简化计算，我们通常使用对数似然：

[ \theta_{ML} = \argmax_{\theta} \sum_{i=1}^m \log p_{model}(x^{(i)}; \theta) = \argmax_{\theta} E_{x \sim \hat{p}{data}} \log p{model}(x; \theta) ]

六、贝叶斯统计

最大后验估计选择后验概率中最大的点：

[ \theta_{MAP} = \argmax_{\theta} p(\theta | x) = \argmax_{\theta} \log p(x | \theta) + \log p(\theta) ]

七、监督学习算法

监督学习算法主要用于根据标注数据进行模型训练。可以参考《统计学方法》中对应的章节进行深入学习。

八、无监督学习算法

无监督学习算法主要用于分析未标注数据。可以参考《统计学方法》中对应的章节进行进一步研究。

九、随机梯度下降

随机梯度下降的核心思想是，梯度是期望，可以通过小规模的样本近似估计。后续内容将有具体讲解。

十、构建机器学习算法

通过组合模型、代价函数和优化算法来构建适用于监督学习和无监督学习的学习算法配方。

十一、促使深度学习发展的挑战

深度学习的发展受到以下挑战的驱动：

维数灾难。

局部不变性和平滑正则化。

流形学习。

下一章将传送门到下一个主题。

转载地址：http://enpq.baihongyu.com/

你可能感兴趣的文章