良有以也


Ricardo

机器学习基石之非线性变换

前面的分析都是基于“线性假设“,它的优点是实际中简单有效,而且理论上有VC 维的保证;然而,面对线性不可分的数据时(实际中也有许多这样的例子),线性方法不那么有效。 1,二次假设 对于下面的例子,线性假设显然不奏效: 我们可以看出,...

机器学习基石之过拟合

1,什么是过拟合(overfitting) 简单的说就是这样一种学习现象:Ein 很小,Eout 却很大。 而Ein 和 Eout 都很大的情况叫做 underfitting。 这是机器学习中两种常见的问题。 上图...

机器学习基石之线性分类模型

在上一讲中,我们了解到线性回归和逻辑斯蒂回归一定程度上都可以用于线性二值分类,因为它们对应的错误衡量(square error, cross-entropy) 都是“0/1 error” 的上界。 1, 三个模型的比较 1.1 分析Error Function 本...

读《factory girls》

如果你的言行举止都像比你阶层更高的人,你就会成为那种人。   factory girls中文名译作《打工女孩》,作者张彤禾,恰是何伟的妻子,现居开罗。本书主要描绘了在2000年到2006年左右在东莞工厂奋斗 的打工女孩群像。作者在七八年间,每年都要去东莞几次,在东莞她碰到了通过传销积...

机器学习基石之逻辑回归

1,逻辑回归问题 有一组病人的数据,我们需要预测他们在一段时间后患上心脏病的“可能性”,就是我们要考虑的问题。 通过二值分类,我们仅仅能够预测病人是否会患上心脏病,不同于此的是,现在我们还关心患病的可能性,即 f(x) = P(+1|x),取值范围是区间 [0,1]。 然而,我们能...

机器学习基石之线性回归

1, 线性回归问题 例如,信用卡额度预测问题:特征是用户的信息(年龄,性别,年薪,当前债务,…),我们要预测可以给该客户多大的信用额度。 这样的问题就是回归问题。 目标值y 是实数空间R。 线性回归假设 线性回归假设的思想是:寻找这样的直线/平面/超平面,使得输入数据的残差最小。 ...

机器学习基石之噪音和错误

当我们面对的问题不是完美的(无噪音)二值分类问题,VC 理论还有效吗? 1,噪音和非确定性目标 几种错误:(1) noise in y: mislabeled data; (2) noise in y: different labels for same x; (3) noise in x...

机器学习基石之VC维理论

上一讲的最后得到了VC bound,这一讲对VC维理论进行理解,这是机器学习(最)重要的理论基础。 我们先对前面得到的生长函数和VC bound 做一点小的修改。 1,VC 维的定义 VC Demension: 对于假设空间H,满足生长函数m(N) = 2^N...