这章主要讲了为什么要从线性到非线性的假设层(hypothesis classes),以及介绍了神经网络和反向传播,重点在于计算梯度。
线性函数实际上就是在平面(或者更高维度)上画线(或者更高维的面或什么玩意,反正是直的),用参数拟合,然后正确进行分类。但是有些东西不能用线性来进行分类比如:
因此提出一个想法:把线性分类器作用到更高维度的数据特征上(也就是说把原数据扩展到更高维来提取特征,再经过线性层),即:
如何得到函数
但是如果
因此需要激活函数这样一个非线性的函数
神经网络就是由多个这样的层组成的hypothesis classes,只要使用神经网络作为hypothesis classes的ML,就可以被称为DL。L层的神经网络又叫多层感知器(MLP,Multi-layer perception)
一个两层的神经网络就可以近似任何一个函数。至于为什么越深的网络有时候就越好,而不是加维度,zico说更让人信服的说法是经验主义。。。
如何计算梯度:前向传播+反向传播,“反向传播”只是链式法则 + 中间结果的智能缓存