神经网络基础

权值拟合的理论基础

当训练样例线性可分时,对于普通的感知器分类器,感知器法则可以找到一个合适的权向量,使得假设空间里有一个对应的完美决策面。

当训练样例不是线性可分时,基于梯度下降推导出的delta法则可以用来更新权值,以拟合最佳决策面,delta法则, (delta)wi = nita(t-o)xi. 这个公式其实也是Liner Regression和Logistic Regression的权值更新公式(在Liner Regression里叫LMS或Widrow-Hoff更新法则).

Delta法则在形式上包含了(t-o)这一个误差项,由此导出了节点误差项的概念,并沿用到多层神经网络的节点误差描述。

注意节点误差项和网络整体输出的误差项是两个不同的概念,并有不同的计算公式。

注意Delta法则是用来学习线性单元(而不是非线性单元)权值更新的方法。

神经网络的结构

经典的前馈神经网络是一个有向无环图, 并且还是一个篱笆图(Lattice Graph), 这种结构的特点是节点分层, 且同一层的节点相互不连接. 在这个网络中, 每一层节点的输出都是后一层节点的输入.

神经网络的节点由几种主要单元构成, 他们是感知器(perceptron), 线性单元(Liner unit)和非线性单元(Sigmoid Unit, Tanh Unit等). 最常见的神经网络节点由一个线性单元和一个非线性单元组成(线性加权求和然后Sigmoid计算输出)

梯度下降权值更新公式

权值增量 = 训练速率误差项权值所对应的输入;其中,误差项*权值 是该权值所对应的梯度分量。 误差函数的真实梯度包含了所有权值梯度作为分量。

Threhold Unit: Threhold unit is added to each layer of the network, including the input layer.
Threhold units added to the output layer is meaningless and will not affect network efficitiveness.

非线性隐藏层上Neural Network节点的个数和这个隐藏层接受输入信号的个数并没有关联