4人工神经网络课件

PPT
  • 阅读 57 次
  • 下载 0 次
  • 页数 57 页
  • 大小 722.715 KB
  • 2023-04-14 上传
  • 收藏
  • 违规举报
  • © 版权认领
下载文档25.00 元 加入VIP免费下载
此文档由【小橙橙】提供上传,收益归文档提供者,本网站只提供存储服务。若此文档侵犯了您的版权,欢迎进行违规举报版权认领
4人工神经网络课件
可在后台配置第一页与第二页中间广告代码
4人工神经网络课件
可在后台配置第二页与第三页中间广告代码
4人工神经网络课件
可在后台配置第三页与第四页中间广告代码
4人工神经网络课件
4人工神经网络课件
还剩10页未读,继续阅读
【这是免费文档,您可以免费阅读】
/ 57
  • 收藏
  • 违规举报
  • © 版权认领
下载文档25.00 元 加入VIP免费下载
文本内容

【文档说明】4人工神经网络课件.pptx,共(57)页,722.715 KB,由小橙橙上传

转载请保留链接:https://www.ichengzhen.cn/view-243549.html

以下为本文档部分文字说明:

2023/4/141第四章人工神经网络4.1简介4.2神经网络表示4.3适合神经网络学习的问题4.4感知器4.5多层网络和反向传播算法4.6反向传播算法的说明4.7*举例:人脸识别4.8*人工神经网络的高级课题小结2023/4/1424.1简

介(1/2)人工神经网络(ANN)的研究在一定程度上受到了生物学的启发,因为生物的学习系统(如大脑)是由相互连接的神经元(neuron)组成的异常复杂的网络。由于ANN只是在一定程度上受生物神经系统的启发,所

以ANN并未模拟生物神经系统中的很多复杂特征。◼ANN是由一系列简单的单元相互密集连接构成的:◼每一个单元有一定数量的实值输入(可能是其他单元的输出)◼每一个单元产生单一的实数值输出(可能成为其他很多单元

的输入)。◼ANN领域的研究者分为两个团体:◼一个团体的目标是使用ANN研究和模拟生物学习过程(本身)◼另一个团体的目标是获得高效的机器学习算法(应用),不管这种算法是否反映了生物过程。2023/4/1434.1简介(2/2)◼神经网络学习方法对于逼近实数值、离散值或向量值的目标函数提供了一种

健壮性很强的方法。◼在模式识别领域,如学习解释复杂的现实世界中的传感器数据,人工神经网络是目前知道的最有效的学习方法。比如,学习识别手写字符、学习识别口语等。◼常用的反向传播算法,使用梯度下降来调节网络参数,以最佳拟合友输入输出对组成的训练数据,在很多

实际的问题中取得了惊人的成功。2023/4/1444.2神经网络表示例:ALVINN系统2023/4/1454.3适合神经网络学习的问题◼实例是用很多“属性一值”对表示的:要学习的目标函数是定义在可以用向量描述的实例之上的,向量由预先定义的特征组成。◼

目标函数的输出可能是离散值、实数值或者由若干实数属性或离散属性组成的向量。◼训练数据可能包含错误:ANN学习算法对于训练数据中的错误有非常好的健壮性。◼可容忍长时间的训练:网络训练算法通常比像决策树学习

这样的算法需要更长的训练时间。◼人类能否理解学到的目标函数是不重要的:神经网络方法学习到的权值经常是人类难以解释的。学到的神经网络比学到的规则难以传达给人类。2023/4/1464.4感知器(1/2)一种类

型的ANN系统是以感知器的单元为基础的。如图4-2所示。感知器以一个实数值向量作为输入,计算这些输入的线性组合,如果结果大于某个阈值,就输出1,否则输出一1。图4-2感知器2023/4/1474.4感知器(2/2)还可以把感知器函数写为:其中:学习一个感知器意味着选择权

w0,……wn的值。所以感知器学习要考虑的候选假设空间H就是所有可能的实数值权向量的集合。(x)sgn(wx)o=1|nHwwR+=2023/4/1484.4.1感知器的表征能力(1/4)可以把感知器看作是n维实例空间(即点空间)中的超平面决策面:◼对于超平面一侧的实例,

感知器输出1,对于另一侧的实例输出一1,这个决策超平面方程是:◼某些正反样例集合不可能被任一超平面分割。那些可以被分割的称为线性可分(linearlyseparable)样例集合。0wx=2023/4/1494.4

.1感知器的表征能力(2/4)图4-3两输入感知器表示的决策面a)一组训练样例和一个能正确分类这些样例的感知器决策面。b)一组非线性可分的训练样例(也就是不能用任一直线正确分类的样例)。x1和x2是感知器的输入。“+”表示正例,“一”表示反例。2023/4/14104

.4.1感知器的表征能力(3/4)单独的感知器可以用来表示很多布尔函数。假定用1(真)和一1(假)表示布尔值,那么使用一个有两输入的感知器:◼实现与函数(AND)的一种方法是设置权w0=一0.8,并且wl=

w2=0.5。◼实现或函数(OR),那么只要改变它的y阈值w0=一0.3}◼AND和OR可被看作m-of-n函数的特例:也就是要使函数输出为真,那么感知器的n个输入中至少m个必须为真:◼OR函数对应于m=1◼AND函数对应于m=n。◼任意m-of-n函数可以很

容易地用感知器表示,只要设置所有输入的权为同样的值(如0.5),然后据此恰当地设置阈值。◼感知器可以表示所有的原子布尔函数:与、或、与非和或非。◼然而,一些布尔函数无法用单一的感知器表示,例如异或函数(XOR),它当且仅当x1x2时输出为1。4.4

.1感知器的表征能力(4/4)2023/4/14124.4.2感知器训练法则(1/3)▪感知器的学习任务是决定一个权向量,它可以使感知器对于给定的训练样例输出正确的1或-1(拟合训练数据)。▪两种算法:感知器法则和delta法则。这两种算法保证收敛到可接受的假设,在不同的条件下收敛到的假设略有不

同。这两种方法提供了学习多个单元构成的网络的基础。2023/4/14134.4.2感知器训练法则(2/3)为了得到可接受的权向量,一种办法是:◼从随机的权值开始◼然后反复地应用这个感知器到每个训练样例◼只要它误分类样例就修改感知器的权值。◼重复这个过程,直到感知器正确分类所有的训练样例。每一

步根据感知器训练法则来修改权值:wiwi+△wi△wi=(t-o)xit是当前训练样例的目标输出,o是感知器的输出,是一个正的常数称为学习速率。学习速率的作用是缓和每一步调整权的程度。可以证明:

在有限次地使用感知器训练法则后,上面的训练过程会收敛到一个能正确分类所有训练样例的权向量,前提是训练样例线性可分,并且使用了充分小的。如果数据不是线性可分的,那么不能保证训练过程收敛。4.4.2感知器训练法则(3/3)2023/4/14154.4.

3梯度下降和delta法则(1/2)◼问题提出:如果训练样本不是线性可分的,那么感知器训练法则不能保证训练过程收敛,delta法则会收敛到目标概念的最佳近似。◼delta法则的关键思想是使用梯度下降来搜索可能的权向量的假设空间,以找

到最佳拟合训练样例的权向量。◼delta法则为反向传播算法提供了基础。且对于包含多种不同类型的连续参数化假设的假设空间,梯度下降是必须遍历这样的假设空间的所有学习算法的基础。2023/4/14164.4.3

梯度下降和delta法则(2/2)把delta训练法则理解为训练一个无阈值的感知器,也就是一个线性单元,它的输出o如下:(感知器:)为了推导线性单元的权值学习法则,先指定一个度量标准来衡量假设相对于训练样例的训练误差。一个常用的特别方便的度量标准为:在一定的条件下,对于给定的全部训

练数据使E最小化的假设也就是H中最可能的假设。xwxo=)(21(w)()2dddDEto−(x)sgn(wx)o=2023/4/14171.可视化假设空间(1/2)图4-4不同假设的误差✓按照E的定义,对于线性单元,这个误差曲面必然是具有单一全局

最小值的抛物面。✓具体的抛物面形状依赖于具体的训练样例集合。2023/4/14181.可视化假设空间(2/2)确定一个使E最小化的权向量:◼梯度下降搜索从一个任意的初始权向量开始◼然后以很小的步伐反复修改这个向量:每一步都沿误差曲面产生最陡峭下降的方向修改权向量(参见图4-4),◼继续这个过程,直

到得到全局的最小误差点。2023/4/14192.梯度下降法则的推导(1/4)可以通过计算E相对向量的每个分量的导数来得到沿误差曲面最陡峭下降的这个方向。这个向量导数被称为E对于的梯度(gradient),记作:既然梯度确定了E最陡峭上升的方向,那么梯度下降的训练法则是:其中:w

www2023/4/14202.梯度下降法则的推导(2/4)◼训练法则也可以写成它的分量形式:其中:iiiwww+iiEww=−2023/4/14212.梯度下降法则的推导(3/4)可以从公式(4.2)中计算E的微分,从而得到组成这个梯度向量的分量。过程如下:iwE202

3/4/14222.梯度下降法则的推导(4/4)所以有:()iddiddDwtox=−2023/4/1423训练线性单元的梯度下降算法(标准梯度下降)GRADIENT-DESCENT(training-examples,)training-examp

les中每一个训练样例形式为序偶<x,t>,其中x是输入值向量,t是目标输出值,是学习速率(例如0.05)初始化每个wi为某个小的随机值遇到终止条件之前,做以下操作:初始化每个△wi为0对于训练样例training-examples中的每个

<x,t>做:把实例x输人到此单元,计算输出o对于线性单元的每个权wi做△wi△wi+(t-o)xi对于线性单元的每个权wi做:iiiwww+2023/4/14243.梯度下降的随机近似(1/3

)(随机梯度下降)◼梯度下降是一种重要的通用学习范型。它是搜索庞大假设空间或无限假设空间的一种策略,它可应用于满足以下条件的任何情况:(1)假设空间包含连续参数化的假设,例如,一个线性单元的权值;(2)误差对于这些假设的参数可微。◼应用梯

度下降的主要实践问题是:(1)有时收敛过程可能非常慢(它可能需要数千步的梯度下降);(2)如果在误差曲面上有多个局部极小值,那么不能保证这个过程会找到全局最小值。2023/4/14253.梯度下降的随机近似(2/3)(随机梯度下降)缓解这些困难的一个常见的梯度下降变体被称

为增量梯度下降或随机梯度下降。◼标准梯度下降训练法则在对D中的所有训练样例求和后计算权值更新。◼随机梯度下降的思想是根据每个单独样例的误差增量计算权值更新,得到近似的梯度下降搜索。◼修改后的训练法则与公式:相似,只是在迭代计算每个训练样

例时根据下面的公式来更新权值,也称增量法则或最小均方(LMS)法则:△wi(t-o)xi▪随梯度下降为每个单独的训练样例d定义不同的误差函数:()iddiddDwtox=−21(w)(to)

2dddE−训练线性单元的梯度下降算法(随机梯度下降)GRADIENT-DESCENT(training-examples,)training-examples中每一个训练样例形式为序偶<x,t>,其中x是输入值向量,t是目标输出值,是学习速率(例如0.05

)初始化每个wi为某个小的随机值遇到终止条件之前,做以下操作:初始化每个△wi为0对于训练样例training-examples中的每个<x,t>做:把实例x输人到此单元,计算输出o对于线性单元的每个权wiwiwi+(t-o)xi2023/4/1427标准的梯度下降和随机的梯度下

降之间的关键区别是:◼标准的梯度下降是在权值更新前对所有样例汇总误差,而随机梯度下降的权值是通过考查每个训练实例来更新的。◼在标准的梯度下降中,权值更新的每一步对多个样例求和,这需要更多的计算。另一方面,

标准的梯度下降对于每一次权值更新经常使用比随机梯度下降大的步长(对所有样例误差的累加)。◼如果有多个局部极小值,随机的梯度下降有时可能避免陷入这些局部极小值中,因为它使用不同的,而不是,对于每个训练样例沿一个不同的误差曲面有效下降,它依靠这些梯度

的平均来近似对整个训练集合的梯度。这些曲面通常有不同的局部极小值,这使得下降过程不大可能陷入任何一个局部极小值。◼在实践中,无论是随机的还是标准的梯度下降方法都被广泛应用。)wE()(wE)(wEd3.梯度下降的随机近似(3/3

)(随机梯度下降)2023/4/14284.4.4小结迭代学习感知器权值的两个相似的算法间的关键差异是:◼感知器训练法则根据阈值化的感知器输出的误差更新权值,◼增量法则根据输入的非阈值化线性组合的误差来更新权。这两个训练法则间的差异还反映在不同的

收敛特性上。◼感知器训练法则经过有限次的迭代收敛到一个能理想分类训练数据的假设,学习过程收敛快,且与初值无关。但条件是训练样例线性可分。◼增量法则渐近收敛至最小误差假设,可能需要极长的时间,但无论训练样例是否线性可分都会收敛。2023/4/14294.5多层网

络和反向传播算法(1/2)◼单个感知器仅能表示线性决策面。两层感知器网络能表示任意布尔函数。◼反向传播算法所学习的多层网络能够表示种类繁多的非线性曲面。◼一个典型的多层网络和它的决策曲面:2023/4/14304.5多层网络和反向传播算法

(2/2)图4-5多层前馈网络的决策区域2023/4/14314.5.1可微阈值单元(1/2)应该使用什么类型的单元来作为构建多层网络的基础呢?◼线性单元,前面已经为这种单元推导出了一个梯度下降学习法则。然而,多个线性单元的连接仍产生线性函数,而我们更希望选择能够表征非线性函数的

网络。◼感知器单元,但它的不连续阈值使它不可微,所以不适合梯度下降算法。◼所需要的单元,输出是输入的非线性函数,并且输出是输入的可微函数。一种选择是sigmoid单元,类似于感知器的单元,它基于一个平滑的可微阈值函数。2023/4/14324.5.1可微阈值单元(2/2)其中,称为sigmoid

函数、logistic函数或挤压函数,它把非常大的输入值映射到0-1小范围输出,且它的导数容易用它的输出表示。有时也用双曲正切tanh代替。图4-6sigmoid阈值单元有阈值2023/4/14334.5.

2反向传播算法(1/2)考虑多个输出单元的网络,而不是单个单元,所以要先重新定义误差E,以便对所有网络输出(多个分量组成的向量)的误差求和。−DdoutputskkdkdotwE2)(21)(2023/4/14342023/4/1435

新的误差项随机梯度下降对隐藏单元和输出单元新的误差项2023/4/14364.5.2反向传播算法(2/2)◼在典型的应用中,反向传播算法的权值更新迭代会被重复上千次。有很多终止条件可以用来停止这个过程:◼一种方法是在迭代的次数到了一个固定值时停止。◼

或当在训练样例上的误差降到某个阈值以下时。◼或在分离的验证样例集合上的误差符合某个标准时。◼终止条件的选择是很重要的,因为:◼太少的迭代可能无法有效地降低误差。◼太多的迭代会导致对训练数据的过度拟合。2023/4/1437反向

传播算法常见的修改算法增加冲量项最常见的是修改算法中的权值更新法则,使第n次迭代时的权值的更新部分地依赖于发生在第n一1次迭代时的更新,即把公式(4.16)换为如下的形式:第二项称为冲量项,的作用是增加冲量(动量)。()(1)jijjijiwnxwn=+−2023/4/

14382.学习任意的无环网络(1)学习任意深度的前馈网络:权值更新法则保持不变,惟一的变化是计算值的过程。概括地说,第m层的单元r的r值是由更深的m+1层的值根据下式计算的:1(1)rrrsrssmoow+=−

2023/4/14392.学习任意的无环网络(2)学习任意无环结构的网络:可以将这个算法推广到任何有向无环结构,而不论网络中的单元是否被排列在统一的层上。此时,计算任意内部单元(也就是所有非输出单元)的法则是:(1)rrrsrssDownst

reamoow=−2023/4/14404.5.3反向传播法则的推导略2023/4/14414.6反向传播算法的说明4.6.1收敛性和局部极小值(1/3)◼对于多层网络,误差曲面可能含有多个不同的局部极小值,梯度下降可能陷入这些局部极小值中的任何一个。因此

,对于多层网络,反向传播算法仅能保证收敛到误差E的某个局部极小值,不一定收敛到全局最小误差。◼考虑含有大量权值的网络。事实上,网络的权越多,误差曲面的维数越多,也就越可能为梯度下降提供更多的“逃逸路线”,让梯度下降离开相

对该单个权值的局部极小值。(原因:它对应着维数非常高的空间中的误差曲面(每个权值一维)。当梯度下降陷入相对某个权的局部极小值时,相对其他的权,这里未必是局部极小值)2023/4/14424.6.1收敛性

和局部极小值(2/3)考虑随着训练中迭代次数的增加网络权值的演化方式:◼在算法中,如果把网络的权值初始化为接近于0的值,那么在早期的梯度下降步骤中,网络将表现为一个非常平滑的函数,近似为输入的线性函数。这是

因为sigmoid函数本身在权值靠近0时接近线性(见图4-6中的sigmoid函数曲线)。◼仅当权值已经增长了一定时间之后,它们才会到达可以表示高度非线性网络函数的程度。可以预期在这个能表示更复杂函数的权空间区域存在更多的局部极小值。但希望当权到达这一点时它们已经足够靠近全局最小

值。2023/4/14434.6.1收敛性和局部极小值(3/3)用来缓解局部极小值问题的一些常见的启发式规则包括:◼为梯度更新法则加一个冲量项。◼使用随机的梯度下降而不是真正的梯度下降。◼使用同样的数据训练多个网络,但用不同的随机权

值初始化每个网络。➢如果不同的训练产生不同的局部极小值,那么选择对分离的验证集合性能最好的那个网络。➢或者保留所有的网络,并且把它们当作一个网络“委员会”,它们的输出是每个网络输出的平均值(可能加权)。2023/4

/14444.6.2前馈网络的表征能力前馈网络可以表示的函数:◼布尔函数:◼任何布尔函数可以被具有两层单元的网络准确表示,尽管在最坏的情况下,所需隐藏单元的数量随着网络输入数量的增加成指数级增长。◼连续函数:◼每个有界的连续函数可以

由一个两层的网络以任意小的误差任意函数:◼任意函数可以被一个有三层单元的网络以任意精度逼近。输出层使用线性单元,两个隐藏层使用sigmoid单元,每一层所需的单元数量一般不确定。2023/4/14454.6.3假设空间搜索和归纳偏置◼对于反向传播算法,网络权的每一种可能赋值都表示了一个句法不同的假

设,原则上都在学习器的考虑范围内。这个假设空间是n个网络权值的n维欧氏空间。◼精确地刻画出反向传播学习的归纳偏置是有难度的,因为它依赖于梯度下降搜索和权空间覆盖可表征函数空间的方式的相互作用性。◼然而,可以把这一偏置粗略地刻画为“在数据点之间平滑插值

”。两个正例之间的点也标记为正例。训练样例的特定样本产生了平滑变化的决策区域。2023/4/14464.6.4隐藏层表示(1/5)反向传播算法的一个迷人的特性是,它能够在网络内部的隐藏层发现有用的中间表示。◼多层网络在隐藏层自动发现有用表示的能力是ANN学习的一个关键特性。它提供

了一种相当重要的灵活性—允许学习器创造出设计者没有明确引入的特征。◼因为训练样例仅包含网络输入和输出,权值调节的过程可以自由地设置权值,来定义任何隐藏单元表示,这些隐藏单元表示在使误差平方E达到最小化时最有效。◼这能够引导反向传播算法定义新的隐藏层特征,这些特征在输入中没有明确表示出来,但却能捕

捉输入实例中与学习目标函数最相关的特征。2023/4/14474.6.4隐藏层表示(2/5)这个8x3x8的网络被训练以学习恒等函数,使用图中所示的8个训练样例。在5000轮训练之后,3个隐藏单元使用图右侧的编码方式来编码8个相互不同的输入。注意,如果把编码后的值四舍

五入为0和1,那么结果是8个不同值的标准二进制编码。1102023/4/14484.6.4隐藏层表示(3/5)权值更新次数2023/4/14494.6.4隐藏层表示(4/5)权值更新次数2023/4/14504.6.4隐藏层表示(5/5)权值更新次数2

023/4/14514.6.5泛化、过度拟合和停止判据(1/5)终止条件的选择:◼一种选择是继续训练直到对训练样例的误差E降低至某个预先定义的阈值之下。◼事实上,这并非一个好的策略,因为反向传播算法容易过度拟合训练样例,降低对于其他未见过实例的泛

化精度。2023/4/14524.6.5泛化、过度拟合和停止判据(2/5)2023/4/14534.6.5泛化、过度拟合和停止判据(3/5)2023/4/14544.6.5泛化、过度拟合和停止判据(4/5)为什么过度拟合往往是发生在迭代的后期,而不是迭代的早期呢?◼设想网络的权

值是被初始化为小随机值的,使用这些几乎一样的权值仅能描述非常平滑的决策面。◼随着训练的进行,一些权值开始增长,以降低在训练数据上的误差,同时学习到的决策面的复杂度也在提高。◼随着权值调整迭代次数的增加,反向传播算法获得的假设的复杂度也在增加。◼如果

权值调整迭代次数足够多,反向传播算法经常会产生过度复杂的决策面,拟合了训练数据中的噪声和训练样例中没有代表性的特征。2023/4/14554.6.5泛化、过度拟合和停止判据(5/5)反向传播中的过度拟合问题的解决:◼一种方法被称为权值衰减,它在每次迭代过程中以某个小因子降低每个权值。◼一个最成

功的方法就是在训练数据外再为算法提供一套验证数据。算法在使用训练集合驱动梯度下降搜索的同时,监视对于这个验证集合的误差。该方法在可获得额外的数据提供验证集合时工作得最好。◼过度拟合的问题对小训练集合最为严

重。在这种情况下,有时使用一种称为“k-fold交叉验证”(k-foldcross-validation)的方法,这种方法进行k次不同的交叉验证,每次使用数据的不同分割作为训练集合和验证集合,然后对结果进行平均。2023/4/14564.7举例:人

脸识别(略)2023/4/14574.8人工神经网络的高级课题(略)

小橙橙
小橙橙
文档分享,欢迎浏览!
  • 文档 25747
  • 被下载 7
  • 被收藏 0
相关资源
广告代码123
若发现您的权益受到侵害,请立即联系客服,我们会尽快为您处理。侵权客服QQ:395972555 (支持时间:9:00-21:00) 公众号
Powered by 太赞文库
×
确认删除?