【文档说明】人工神经网络课件.ppt,共(373)页,5.894 MB,由小橙橙上传
转载请保留链接:https://www.ichengzhen.cn/view-244198.html
以下为本文档部分文字说明:
2023/4/171人工神经网络ArtificialNeuralNetworks2023/4/172教材书名:《人工神经网络导论》出版社:高等教育出版社出版日期:2001年8月定价:12.4元作者:蒋宗礼2023/4/173主要参考书目1、PhilipD.Wasse
rman,NeuralComputing:TheoryandPractice,VanNostrandReinhold,19892、胡守仁、余少波、戴葵,神经网络导论,国防科技大学出版社,1993.10.3、杨行峻、
郑君里,人工神经网络,高等教育出版社,1992.9.4、闻新、周露、王丹力、熊晓英,MATLAB神经网络应用设计,科学出版社,2001.5.5、王伟,人工神经网络原理,北京航天航空大学出版社,1995.10.6、王洪元、史国栋,人工神经网络技术及其应用,中国石化出版社,20
02.12.2023/4/174课程目的和基本要求•作为人工神经网络的入门课程,用于将学生引入人工神经网络及其应用的研究领域。•介绍人工神经网络及其基本网络模型,使学生–了解智能系统描述的基本模型–掌握人工神经网络的基本概念、单层网、多层网、循环网
等各种基本网络模型的结构、特点、典型训练算法、运行方式、典型问题–掌握软件实现方法。2023/4/175课程目的和基本要求•了解人工神经网络的有关研究思想,从中学习开拓者们的部分问题求解方法。•通过实验进一步体会有关模型的用法和性能,获取一些初步的
经验。•查阅适当的参考文献,将所学的知识与自己未来研究课题(包括研究生论文阶段的研究课题)相结合起来,达到既丰富学习内容,又有一定的研究和应用的目的。2023/4/176主要内容•智能及其实现•ANN基础
•Perceptron•BP•CPN•统计方法•Hopfield网与BAM•ART2023/4/177主要内容第一章:引论智能的概念、智能系统的特点及其描述基本模型,物理符号系统与连接主义的观点及其比较;人工神经网络的特点、发展历史。2023/4/178主要内
容第二章人工神经网络基础本章在介绍了基本神经元后,将概要介绍人工神经网络的一般特性。主要包括,生物神经网络模型,人工神经元模型与典型的激励函数;人工神经网络的基本拓扑特性,存储类型(CAM──LTM,AM──STM)及映象,Supervised训练与Unsupervised训练。2
023/4/179主要内容第三章感知器感知器与人工神经网络的早期发展;单层网能解决线性可分问题,而无法解决线形不可分问题,要想解决这一问题,必须引入多层网;Hebb学习律,Delta规则,感知器的训练算法。•实验:实现一个感知器。2023/4/
1710主要内容第四章向后传播•BP(Backpropagation)网络的构成及其训练过程;隐藏层权调整方法的直观分析,BP训练算法中使用的Delta规则(最速下降法)的理论推导;算法的收敛速度及其改进讨论;BP网络中的几个重要问题
。•实验:实现BP算法。2023/4/1711主要内容第五章对传网•生物神经系统与异构网的引入;对传网的网络结构,Kohonen层与Grossberg层的正常运行,对传网的输入向量的预处理,Kohonen层的训练算法及其权矩阵的初始化方法;Grossberg层
的训练;完整的对传网。•实验:实现基本的对传网。2023/4/1712主要内容第六章统计方法•统计方法是为了解决局部极小点问题而引入的,统计网络的基本训练算法,模拟退火算法与收敛分析,Cauchy训练,人工热处理与临界温度在训练中的使用,BP算法与Cauchy训练相结合。•实验:实现模拟退火算
法。2023/4/1713主要内容第七章循环网络•循环网络的组织,稳定性分析;相联存储;统计Hopfield网与Boltzmann机;Hopfield网用于解决TSP问题。•BAM(BidirectionalAssociativeMemory)用于实现双联存储
;基本双联存储网络的结构及训练;其他的几种相联存储网络。•实验:实现一个Hopfield网。2023/4/1714主要内容第八章自适应共振理论•人脑的稳定性与可塑性问题;ART模型的总体结构与分块描述;比较层与识别层之间的两个联接矩阵的初始化,识别过程与比较过程,查找的实现;训练讨论。2023/4
/1715第1章引言•主要内容:–智能与人工智能;–ANN的特点;–历史回顾与展望•重点:–智能的本质;–ANN是一个非线性大规模并行处理系统•难点:对智能的刻画2023/4/1716第1章引言1.1人工神经网络的提出1.2人工神经网络的特点1.3历史回顾2023/4/17
17第1章引言•人类对人工智能的研究可以分成两种方式对应着两种不同的技术:–传统的人工智能技术——心理的角度模拟–基于人工神经网络的技术——生理的角度模拟2023/4/1718学习驾驶汽车的人工神经网络摘自《机器学习》,T.M.Mitchell2023/4/1719人脸识别2023
/4/1720手写数字识别2023/4/172121世纪:智能科学(Nature409,2001)2023/4/1722典型的“智力生成过程”感觉器官神经系统认知效应器官外部世界决策神经系统思维器官2023/4/1723人类智力的信息本质信息获取信息传递信
息认知信息执行外部世界信息再生信息传递认识论信息知识智能策略狭义智能本体论信息认识论信息智能策略智能行为2023/4/17241.1人工神经网络的提出•人工神经网络(ArtificialNeuralNetworks,简记作ANN),是对人类大脑系统的一阶特性的一种描述。简单地讲,它是一个数
学模型,可以用电子线路来实现,也可以用计算机程序来模拟,是人工智能研究的一种方法。2023/4/17251.1人工神经网络的提出•1.1.1智能与人工智能•一、智能的含义•智能是个体有目的的行为,合理的思维,以及有效的、适应环境的综合能力
。•智能是个体认识客观事物和运用知识解决问题的能力。•人类个体的智能是一种综合能力。2023/4/17261.1人工神经网络的提出•智能可以包含8个方面•感知与认识客观事物、客观世界和自我的能力–感知是智能的基础——最基本的能力•通过学习取得经
验与积累知识的能力–这是人类在世界中能够不断发展的最基本能力。•理解知识,运用知识和经验分析、解决问题的能力–这一能力可以算作是智能的高级形式。是人类对世界进行适当的改造,推动社会不断发展的基本能力。2023/4/1727
1.1人工神经网络的提出•联想、推理、判断、决策语言的能力–这是智能的高级形式的又一方面。–预测和认识–“主动”和“被动”之分。联想、推理、判断、决策的能力是“主动”的基础。•运用进行抽象、概括的能力•上述这5种能力,被认为是人类智能最为基本的能力2023/
4/17281.1人工神经网络的提出•作为5种能力综合表现形式的3种能力–发现、发明、创造、创新的能力–实时、迅速、合理地应付复杂环境的能力–预测、洞察事物发展、变化的能力2023/4/17291.1人工神经网络
的提出•二、人工智能•人工智能:研究如何使类似计算机这样的设备去模拟人类的这些能力。•研究人工智能的目的–增加人类探索世界,推动社会前进的能力–进一步认识自己•三大学术流派–符号主义(或叫做符号/逻辑主义)学派–联接主义
(或者叫做PDP)学派–进化主义(或者叫做行动/响应)学派2023/4/17301.1人工神经网络的提出•1.1.2物理符号系统•人脑的反映形式化现实信息数据物理系统物理符号系统表现智能2023/4/17311.1人工神经网络的提出
•Newell和Simon假说:一个物理系统表现智能行为的充要条件是它有一个物理符号系统•概念:物理符号系统需要有一组称为符号的实体组成,它们都是物理模型,可以在另一类称为符号结构的实体中作为成分出现,以构成更高级别的系统2023/4/17321.1人工神经网络的提出•困
难:–抽象——舍弃一些特性,同时保留一些特性–形式化处理——用物理符号及相应规则表达物理系统的存在和运行。•局限:–对全局性判断、模糊信息处理、多粒度的视觉信息处理等是非常困难的。2023/4/17331.1人工神经
网络的提出•1.1.3联接主义观点•核心:智能的本质是联接机制。•神经网络是一个由大量简单的处理单元组成的高度复杂的大规模非线性自适应系统•ANN力求从四个方面去模拟人脑的智能行为–物理结构–计算模拟–存储与操作–训练2023/4/17341.1人工神经网络的提出•1.1.4两种模型
的比较心理过程逻辑思维高级形式(思维的表象)生理过程形象思维低级形式(思维的根本)仿生人工神经网络2023/4/17351.1人工神经网络的提出•物理符号系统和人工神经网络系统的差别项目物理符号系统人工神经网络处理方式逻辑运算模拟运算执行方式串行并行动作
离散连续存储局部集中全局分布2023/4/17361.1人工神经网络的提出•两种人工智能技术的比较项目传统的AI技术ANN技术基本实现方式串行处理;由程序实现控制并行处理;对样本数据进行多目标学习;通过
人工神经元之间的相互作用实现控制基本开发方法设计规则、框架、程序;用样本数据进行调试(由人根据已知的环境去构造一个模型)定义人工神经网络的结构原型,通过样本数据,依据基本的学习算法完成学习——自动从样本数据中抽取内涵(自动适应应用环境)适应领域精确计算:符号处理,数
值计算非精确计算:模拟处理,感觉,大规模数据并行处理模拟对象左脑(逻辑思维)右脑(形象思维)2023/4/17371.2人工神经网络的特点•信息的分布表示•运算的全局并行和局部操作•处理的非线性2023/4/17381.2
.1人工神经网络的概念•1、定义•(1)Hecht—Nielsen(1988年)人工神经网络是一个并行、分布处理结构,它由处理单元及其称为联接的无向讯号通道互连而成。这些处理单元(PE—ProcessingElement)
具有局部内存,并可以完成局部操作。每个处理单元有一个单一的输出联接,这个输出可以根据需要被分枝成希望个数的许多并行联接,且这些并行联接都输出相同的信号,即相应处理单元的信号,信号的大小不因分支的多少而变化。2023/4/17391.2.1人工神经网络的概念•(1)
Hecht—Nielsen(1988年)(续)•处理单元的输出信号可以是任何需要的数学模型,每个处理单元中进行的操作必须是完全局部的。也就是说,它必须仅仅依赖于经过输入联接到达处理单元的所有输入信号的当前值和存储在处理单元局部
内存中的值。2023/4/17401.2.1人工神经网络的概念•强调:–①并行、分布处理结构;–②一个处理单元的输出可以被任意分枝,且–大小不变;–③输出信号可以是任意的数学模型;–④处理单元完全的局部操作2023/4/1741
1.2.1人工神经网络的概念•(2)Rumellhart,McClelland,Hinton的PDP•1)一组处理单元(PE或AN);•2)处理单元的激活状态(ai);•3)每个处理单元的输出函数(fi);•4)处理
单元之间的联接模式;•5)传递规则(∑wijoi);•6)把处理单元的输入及当前状态结合起来产生激活值的激活规则(Fi);•7)通过经验修改联接强度的学习规则;•8)系统运行的环境(样本集合)。202
3/4/17421.2.1人工神经网络的概念•(3)Simpson(1987年)•人工神经网络是一个非线性的有向图,图中含有可以通过改变权大小来存放模式的加权边,并且可以从不完整的或未知的输入找到模式。2023/4/17431.2.1
人工神经网络的概念•2、关键点•(1)信息的分布表示•(2)运算的全局并行与局部操作•(3)处理的非线性特征•3、对大脑基本特征的模拟•1)形式上:神经元及其联接;BN对AN•2)表现特征:信息的存储与处理2023/4/17441.2.1人工神经网络的概念•4、别名•人
工神经系统(ANS)•神经网络(NN)•自适应系统(AdaptiveSystems)、自适应网(AdaptiveNetworks)•联接模型(Connectionism)•神经计算机(Neurocomputer)2023/4/17451.2.2学习(Le
arning)能力•人工神经网络可以根据所在的环境去改变它的行为•自相联的网络•异相联的网络:它在接受样本集合A时,可以抽取集合A中输入数据与输出数据之间的映射关系。——“抽象”功能。•不同的人工神经网络模型,有不同的学习/训练算法2023/4/17461.2.3基本特征的自
动提取•由于其运算的不精确性,表现成“去噪音、容残缺”的能力,利用这种不精确性,比较自然地实现模式的自动分类。•普化(Generalization)能力与抽象能力2023/4/17471.2.4信息的分布存放•信息的分布存提供容错功能–由于信息被分布存放在几乎整个网
络中,所以,当其中的某一个点或者某几个点被破坏时,信息仍然可以被存取。•系统在受到局部损伤时还可以正常工作。•并不是说可以任意地对完成学习的网络进行修改。也正是由于信息的分布存放,对一类网来说,当它完成学习后,如果再让它学
习新的东西,这时就会破坏原来已学会的东西。2023/4/17481.2.5适应性(Applicability)问题•擅长两个方面:–对大量的数据进行分类,并且只有较少的几种情况;–必须学习一个复杂的非线性映射。•目前应用:–人们主要将其用于语音、视觉、知识处理、辅助决策等方面。–在数据压缩、模式
匹配、系统建模、模糊控制、求组合优化问题的最佳解的近似解(不是最佳近似解)等方面也有较好的应用。2023/4/17491.3历史回顾•1.3.1萌芽期(20世纪40年代)•人工神经网络的研究最早可以追溯到人类开始研究自己的智能的时期,到1949年止。•1943年,心理学家McCulloch和
数学家Pitts建立起了著名的阈值加权和模型,简称为M-P模型。发表于数学生物物理学会刊《BulletinofMethematicalBiophysics》•1949年,心理学家D.O.Hebb提出神经元之间突触联系是可变的假说——Hebb学习律。2023/4/17501.
3.2第一高潮期(1950~1968)•以MarvinMinsky,FrankRosenblatt,BernardWidrow等为代表人物,代表作是单级感知器(Perceptron)。•可用电子线路模拟。•人们乐观地认为几乎已经找到了智能的关键。许多部门都开始
大批地投入此项研究,希望尽快占领制高点。2023/4/17511.3.3反思期(1969~1982)•M.L.Minsky和S.Papert,《Perceptron》,MITPress,1969年•异或”运算不可表示•二十世纪70年代和80年代早期的研究结果•认识
规律:认识——实践——再认识2023/4/17521.3.4第二高潮期(1983~1990)•1982年,J.Hopfield提出循环网络–用Lyapunov函数作为网络性能判定的能量函数,建立ANN稳定性的判别依据–阐明了ANN与动力
学的关系–用非线性动力学的方法来研究ANN的特性–指出信息被存放在网络中神经元的联接上=−===−−=ninjijnixiiiiininjjiijwdsxsxswVi111011)()()()(212023/4/17
531.3.4第二高潮期(1983~1990)•2)1984年,J.Hopfield设计研制了后来被人们称为Hopfield网的电路。较好地解决了著名的TSP问题,找到了最佳解的近似解,引起了较大的轰动。•
3)1985年,UCSD的Hinton、Sejnowsky、Rumelhart等人所在的并行分布处理(PDP)小组的研究者在Hopfield网络中引入了随机机制,提出所谓的Boltzmann机。2023/4/17541.3.4第二高潮期(1983~1990
)•4)1986年,并行分布处理小组的Rumelhart等研究者重新独立地提出多层网络的学习算法——BP算法,较好地解决了多层网络的学习问题。(Paker1982和Werbos1974年)•国内首届神经网络大会是1990年12月在北京举行的。2023/4/17551.3.5再认
识与应用研究期(1991~)•问题:•1)应用面还不够宽•2)结果不够精确•3)存在可信度的问题2023/4/17561.3.5再认识与应用研究期(1991~)•研究:•1)开发现有模型的应用,并在应用中根据实际运行情况对模型、算法加以改造
,以提高网络的训练速度和运行的准确度。•2)充分发挥两种技术各自的优势是一个有效方法•3)希望在理论上寻找新的突破,建立新的专用/通用模型和算法。•4)进一步对生物神经系统进行研究,不断地丰富对人脑的认识。
2023/4/1757•神经网络的研究已有50多年的历史,它的发展道路是曲折的,几经兴衰,目前已在许多领域得到了成功的应用。1.3.6历史总结2023/4/1758•人工神经网络的研究始于本世纪40年代。1943年,心理学家McCulloch和数学家Pi
tts合作,融合了生物物理学和数学,提出了第一个神经元计算模型—MP模型。这种单个神经元模型功能较弱,但连接而成的网络记忆能力巨大。这种巨大的记忆能力存储在网络中足够多的神经元之间丰富的连接强度上。•MP模型虽
然简单,但它开创了神经网络模型的理论研究,为各种神经元模型及网络模型的研究打下了基础。1.3.6历史总结2023/4/1759•1949年心理学家Hebb提出神经元之间突触联系强度可变的假设。他认为学习过
程是在突触上发生的,突触的联系强度随其前后神经元的活动而变化。根据这一假说提出了改变神经元连接强度的Hebb规则。它对以后人工神经网络的结构及算法都有很大影响。直到现在,Hebb的学习算法仍在不少人工神经网络中应用。1.3.6历史总结2023/4/1760•50年代
末,Rosenblatt提出感知器模型,第一次把神经网络的研究付诸工程实践。这是一种学习和自组织的心理学模型,它基本上符合神经生理学的知识,模型的学习环境是有噪声的,网络构造中存在随机连接,这符合动物学习的自然环境。这是第一个真正的人工神经网络,他给出了两层感知器的收
敛定理。后来的一大类神经网络模型都是感知器模型的变形。1.3.6历史总结2023/4/1761•60年代末,美国著名人工智能学者Minsky和Papart对Rosenblatt的工作进行了深入的研究,写了很有影响的《感知器》一书
,指出感知器的处理能力有限,单层感知器只能作线性划分,对于非线性或其他分类会遇到很大的困难。这时应采用含有隐单元的多层神经网络,但引入隐单元后找到一个有效的学习算法非常困难,Minsky断言这种感知器无科学研究
价值可言,包括多层的也没有什么意义。1.3.6历史总结2023/4/1762•这个结论对当时的神经网络研究无疑是一个沉重的打击,客观上对神经网络的研究起了一定的消极作用。同时当时的微电子技术也无法为神经网络的研究提供有效的技术保障。故
在其后的十几年内,从事神经网络研究的人数及经费支持大大下降,神经网络研究处于低潮。1.3.6历史总结2023/4/1763•然而在此期间,仍有为数不多的学者致力于神经网络的研究,1969年Grossbe
rg等提出了自适应共振理论模型。1972年Kohenen提出自组织映射的理论模型,并称神经网络为联想存贮器。所有这些理论为神经网络的进一步发展奠定了理论基础。1.3.6历史总结2023/4/1764•1982年,美国加州工程学院物理学家Hopfield提
出了一个用于联想记忆及优化计算的新途径—Hopfield模型,并于1984年进行修改,提出了利用模拟电路的基础元件构成了人工神经网络的硬件原理模型,为实现硬件奠定了基础。1985年Hopfield和Tank提出用神经网络解决优化问题。1.3.6历史总结2023
/4/1765•这一时期还有一个以Rumelhart和McClelland为首的并行分布处理(PDP)的研究小组,他们提出了多层网络学习的误差反向传播学习算法(BP算法),解决了多层网络的学习问题,从实践上证实了人工神经网络具有很强的学习能力,并不象Mi
nsky等人预料的那样弱,相反它可以完成许多学习任务,解决许多实际问题,也因此推动了前馈式神经网络的研究。BP算法目前已成为迄今为止应用最普遍的神经网络学习算法。1.3.6历史总结2023/4/1766•上世纪40年代•兴奋与抑制型神经元模型(Mcculloch,Pitts)
•神经元连接强度的修改规则(Hebb)•上世纪50年代、60年代•感知机(Rosenblatt)和自适应性元件(Widrow)•上世纪70年代•Perceptron一书出版(Minsky和Papert)研究处于低
潮。•上世纪80年代后•Rumelhart,Mcclelland以及Hopfield等取得突破性进展•上世纪90年代开始•功能柱和神经场模型的提出1.3.6历史总结2023/4/1767第2章人工神经网络基础•主要内容:–BN与AN;–拓扑结构;–
存储;–训练•重点:AN;拓扑结构;训练•难点:训练2023/4/1768第2章人工神经网络基础2.1生物神经网2.2人工神经元2.3人工神经网络的拓扑特性2.4存储与映射2.5人工神经网络的训练2023/4/1769•或称神经细胞,是生物神经系统的最基本单元。从组成结构看,各种神经元具有共性
,它由细胞体(Soma)、轴突(Axon)和树突(Dendrite)三个主要部分组成。2.1生物神经网生物神经元(Neuron)时空整合功能兴奋与抑制状态脉冲与电位转换突触延时与不应期2023/4/17702.1生物神经网1
、构成胞体(Soma)枝蔓(Dendrite)胞体(Soma)轴突(Axon)突触(Synapse)2、工作过程2023/4/17712.1生物神经网•3、六个基本特征:–1)神经元及其联接;–2)神经元之间的联接强度决定信号传递的强弱
;–3)神经元之间的联接强度是可以随训练改变的;–4)信号可以是起刺激作用的,也可以是起抑制作用的;–5)一个神经元接受的信号的累积效果决定该神经元的状态;–6)每个神经元可以有一个“阈值”。2023/4/17722.2人工神经元•神经元是
构成神经网络的最基本单元(构件)。•人工神经元模型应该具有生物神经元的六个基本特性。2023/4/17732.2.1人工神经元的基本构成•人工神经元模拟生物神经元的一阶特性。–输入:X=(x1,x2,…,xn)–联接权:W=(w1,w2,…,wn)T–网络输入:net=∑xiw
i–向量形式:net=XWxnwn∑x1w1x2w2net=XW…2023/4/17742.2.2激活函数(ActivationFunction)•激活函数——执行对该神经元所获得的网络输入的变换,也
可以称为激励函数、活化函数:o=f(net)•1、线性函数(LinerFunction)f(net)=k*net+cnetooc2023/4/17752、非线性斜面函数(RampFunction)γifnet≥θf(
net)=k*netif|net|<θ-γifnet≤-θ•γ>0为一常数,被称为饱和值,为该神经元的最大输出。2023/4/17762、非线性斜面函数(RampFunction)γ-γθ-θneto2023/4/17773、阈值函数(ThresholdFunction)阶跃函数βifnet>θf
(net)=-γifnet≤θβ、γ、θ均为非负实数,θ为阈值二值形式:1ifnet>θf(net)=0ifnet≤θ双极形式:1ifnet>θf(net)=-1ifnet≤θ2023/4/17783、阈值函数(Th
resholdFunction)阶跃函数β-γθonet02023/4/17794、S形函数压缩函数(SquashingFunction)和逻辑斯特函数(LogisticFunction)。f(net)=a+b/(1+exp(-d*net))a,b,d为常数。它的饱和值为a和a+b。最简
单形式为:f(net)=1/(1+exp(-d*net))函数的饱和值为0和1。•S形函数有较好的增益控制2023/4/17804、S形函数a+bo(0,c)netac=a+b/22023/4/17812023/4/1782典型激励函数netooc线性函数(LinerFunction)f(net
)=k*net+cγ-γθ-θneto非线性斜面函数(RampFunction)a+bo(0,c)netac=a+b/2S形函数2023/4/17832.2.3M-P模型x2w2∑fo=f(net)xnwn…net=XWx1w1McCulloc
h—Pitts(M—P)模型,也称为处理单元(PE)2023/4/1784人工神经元的基本构成胞体(Soma)枝蔓(Dendrite)胞体(Soma)轴突(Axon)突触(Synapse)人工神经元模拟生物神经元的一阶特性。–输入:X=(x1,x2,…,xn)–联接权:W=(w1,w2,…,wn)
T–网络输入:net=∑xiwi–向量形式:net=XW–激活函数:f–网络输出:o=f(net)InputsignalSynapticweightsSummingfunctionActivationfunctionLo
calFieldvOutputox1x2xnw2wnw1)(fw0x0=+12023/4/1785内容回顾•擅长两个方面•目前应用–语音、视觉、知识处理–数据压缩、模式匹配、系统建模、模糊控制、求组合优化问题的最佳解的近似解
(不是最佳近似解)–辅助决策——预报与智能管理–通信——自适应均衡、回波抵消、路由选择、ATM中的呼叫接纳、识别与控制–空间科学——对接、导航、制导、飞行程序优化2023/4/1786内容回顾•发展过程–萌芽期(20世纪40年代)•M-
P模型•Hebb学习律–第一高潮期(1950~1968)•Perceptron的兴衰–反思期(1969~1982)–第二高潮期(1983~1990)•4个标志性成果–再认识与应用研究期(1991~)2023/4/1787内容回顾•生物神经网六个基本特征–神
经元及其联接、信号传递、训练、刺激与抑制、累积效果、“阈值”。•人工神经元的基本构成xnwn∑x1w1x2w2net=XW…2023/4/1788内容回顾•激活函数与M-P模型–线性函数、非线性斜面函数、阈值函数–S形函数–M-P模型x2w2∑fo=f(
net)xnwn…net=XWx1w12023/4/17892.3人工神经网络的拓扑特性连接的拓扑表示ANiwijANj2023/4/17902.3.1联接模式•用正号(“+”,可省略)表示传送来的信号起刺激作用,它用于增加神经元的活跃度;•
用负号(“-”)表示传送来的信号起抑制作用,它用于降低神经元的活跃度。•层次(又称为“级”)的划分,导致了神经元之间的三种不同的互连模式:2023/4/17912.3.1联接模式•1、层(级)内联接–层内联接又叫做区域内(Intra
-field)联接或侧联接(Lateral)。–用来加强和完成层内神经元之间的竞争•2、循环联接–反馈信号。2023/4/17922.3.1联接模式•3、层(级)间联接–层间(Inter-field)联接指不同层中的神经元之间的联接。这种联接用来实现层间的信号传递–前馈信号–反馈信号202
3/4/17932.3.2网络的分层结构•单级网–简单单级网2023/4/1794简单单级网……x1x2…xno1o2omwnmw11w1mw2mwn1输出层输入层2023/4/1795简单单级网–W=(wij)–输出
层的第j个神经元的网络输入记为netj:–netj=x1w1j+x2w2j+…+xnwnj–其中,1≤j≤m。取–NET=(net1,net2,…,netm)–NET=XW–O=F(NET)2023/4/1796单级横向反馈网输出层x1o1w11w1mx2o2w2m……
…xnomwn1输入层V2023/4/1797单级横向反馈网•V=(vij)•NET=XW+OV•O=F(NET)•时间参数——神经元的状态在主时钟的控制下同步变化•考虑X总加在网上的情况–NET(t+1)=X(t)W+O(t)V–O(t
+1)=F(NET(t+1))•O(0)=0•考虑仅在t=0时加X的情况。•稳定性判定2023/4/1798多级网输出层隐藏层输入层o1o2om…x1x2xn………………2023/4/1799•层次划分–信号只被允许从较低层流向较高层。–层号确定层的高低:层号
较小者,层次较低,层号较大者,层次较高。–输入层:被记作第0层。该层负责接收来自网络外部的信息输出层隐藏层输入层o1o2om…x1x2xn………………2023/4/17100–第j层:第j-1层的直接后
继层(j>0),它直接接受第j-1层的输出。–输出层:它是网络的最后一层,具有该网络的最大层号,负责输出网络的计算结果。–隐藏层:除输入层和输出层以外的其它各层叫隐藏层。隐藏层不直接接受外界的信号,也不直接向外
界发送信号输出层隐藏层输入层o1o2om…x1x2xn………………2023/4/17101•约定:–输出层的层号为该网络的层数:n层网络,或n级网络。–第j-1层到第j层的联接矩阵为第j层联接矩阵,输出层对应的矩阵叫输出层联接矩阵。今后,在需要的时候,一般我们用W(j
)表示第j层矩阵。输出层隐藏层输入层o1o2om…x1x2xn………………W(1)W(2)W(3)W(h)2023/4/17102多级网——h层网络输出层隐藏层输入层o1o2om…x1x2xn………………W(1)W(2)W(3)W(h)2023/4/17103多级网•非线
性激活函数–F(X)=kX+C–F3(F2(F1(XW(1))W(2))W(3))2023/4/17104循环网x1o1输出层隐藏层输入层x2o2omxn…………………2023/4/17105循环网•如果将输出信号反馈到输入端
,就可构成一个多层的循环网络。•输入的原始信号被逐步地“加强”、被“修复”。•大脑的短期记忆特征——看到的东西不是一下子就从脑海里消失的。•稳定:反馈信号会引起网络输出的不断变化。我们希望这种变化逐渐减小,并且最后能消失。当
变化最后消失时,网络达到了平衡状态。如果这种变化不能消失,则称该网络是不稳定的。2023/4/171062.4存储与映射•空间模式(SpatialModel)•时空模式(Spatialtemporal
Model)•空间模式三种存储类型•1、RAM方式(RandomAccessMemory)–随机访问方式是将地址映射到数据。•2、CAM方式(ContentAddressableMemory)–内容寻址方式是将数据映射到地址。•3、AM方式(Assoc
iativeMemory)–相联存储方式是将数据映射到数据。2023/4/171072.4存储与映射•后续的两种方式是人工神经网络的工作方式。•在学习/训练期间,人工神经网络以CAM方式工作;权矩阵又被称为网络的长期存储(LongT
ermMemory,简记为LTM)。•网络在正常工作阶段是以AM方式工作的;神经元的状态表示的模式为短期存储(ShortTermMemory,简记为STM)。2023/4/171082.4存储与映射•自相联(Auto-associative)映射:训练网络的样本集为向量集
合为{A1,A2,…,An}•在理想情况下,该网络在完成训练后,其权矩阵存放的将是上面所给的向量集合。2023/4/171092.4存储与映射•异相联(Hetero-associative)映射{(A1,B1),(A2,B2),…,(An,Bn)}•该网络在
完成训练后,其权矩阵存放的将是上面所给的向量集合所蕴含的对应关系。•当输入向量A不是样本的第一的分量时,样本中不存在这样的元素(Ak,Bk),使得Ai≤Ak≤A或者A≤Ak≤Aj•且此时有Ai≤A≤Aj•则向量B是Bi与Bj的插值。2023/4/171102
.5人工神经网络的训练•人工神经网络最具有吸引力的特点是它的学习能力。•1962年,Rosenblatt给出了人工神经网络著名的学习定理:人工神经网络可以学会它可以表达的任何东西。•人工神经网络的表达能力大大地限制
了它的学习能力。•人工神经网络的学习过程就是对它的训练过程2023/4/171112.5.1无导师学习•无导师学习(UnsupervisedLearning)与无导师训练(UnsupervisedTraining)相对应•抽取样本集合中蕴含
的统计特性,并以神经元之间的联接权的形式存于网络中。2023/4/171122.5.1无导师学习•Hebb学习律、竞争与协同(CompetitiveandCooperative)学习、随机联接系统(RandomlyConnectedLearning)等。•Hebb算法
[D.O.Hebb在1961年]的核心:–当两个神经元同时处于激发状态时被加强,否则被减弱。–数学表达式表示:•Wij(t+1)=Wij(t)+αoi(t)oj(t)2023/4/171132.5.2有导师学习•有
导师学习(SupervisedLearning)与有导师训练(SupervisedTraining)相对应。•输入向量与其对应的输出向量构成一个“训练对”。•有导师学习的训练算法的主要步骤包括:1)从样本集合中取一个样本(Ai,Bi);2)计算出网络的实际输出O;
3)求D=Bi-O;4)根据D调整权矩阵W;5)对每个样本重复上述过程,直到对整个样本集来说,误差不超过规定范围。2023/4/17114Delta规则Widrow和Hoff的写法:Wij(t+1)=Wij(t)
+α(yj-aj(t))oi(t)也可以写成:Wij(t+1)=Wij(t)+∆Wij(t)∆Wij(t)=αδjoi(t)δj=yj-aj(t)Grossberg的写法为:∆Wij(t)=αai(t)(oj(t)-Wij(t))更一般的Delta规则为:∆Wij(t)=g(ai(t),yj
,oj(t),Wij(t))2023/4/17115其它•再例学习–外部环境对系统的输出结果给出评价,学习系统通过强化受奖的动作来改善自身性能。•学习规则–误差纠错学习–Hebb学习–竞争学习2023/4/17116练习题•P291、4、6、10、152023/
4/17117上次课内容回顾:网络的分层结构•联接模式–刺激联接与抑制联接–前馈信号与反馈信号–层(级)内联接–循环联接–层(级)间联接•简单单级网:NET=XW;O=F(NET)•单级横向反馈网:NET
=XW+O(t)V;O(t)=F(NET)2023/4/17118上次课内容回顾:网络的分层结构•非循环多级网–层次划分–非线性激活函数:F3(F2(F1(XW1)W2)W3)•循环网–短期记忆特征及其
对输入信号的修复作用–时间参数与主时钟–稳定性2023/4/17119上次课内容回顾:存储与映射•模式–空间模式–时空模式•模式三种存储类型–RAM、CAM、AM•模式的存储与运行–CAM——LTM——训练–AM——STM——运行–相联:自相联映射、异相联映射2023/4/17120
上次课内容回顾:训练•Rosenblatt的学习定理•无导师学习–抽取样本集合中蕴含的统计特性–样本集:{A1,A2,…,An}•Hebb算法:Wij(t+1)=Wij(t)+αoi(t)oj(t)•
有导师学习–抽取样本蕴含的映射关系–样本集:{(A1,B1),(A2,B2),…,(An,Bn)}–训练算法•Delta规则2023/4/17121第3章感知器•主要内容:–感知器与人工神经网络的早期发展;–线性可分问题与线性不可分问题;–Hebb学习律;–Delta规则;–感知器的训
练算法。•重点:感知器的结构、表达能力、学习算法•难点:感知器的表达能力2023/4/17122第3章感知器3.1感知器与人工神经网络的早期发展3.2感知器的学习算法3.2.1离散单输出感知器训练算法3.2
.2离散多输出感知器训练算法3.2.3连续多输出感知器训练算法3.3线性不可分问题3.3.1异或(Exclusive–OR)问题3.3.2线性不可分问题的克服实现!问题的发现与解决!2023/4/171233.1感知器与ANN的早期发展McCulloch和Pitt
s1943年,发表第一个系统的ANN研究——阈值加权和(M-P)数学模型。1947年,开发出感知器。1949年,提出Hebb学习律。单输出的感知器(M-P模型)x2x1oxn…2023/4/171243.1感知器与ANN的早期发展•1962年,Rosenblatt宣布:人工神经
网络可以学会它能表示的任何东西o1多输出感知器x1x2o2omxn…………输入层输出层2023/4/171253.2感知器的学习算法•感知器的学习是有导师学习•感知器的训练算法的基本原理来源于著名的Hebb学习律•基本思想:逐步地将样本集中的样本输入到网络中,
根据输出结果和理想输出之间的差别来调整网络中的权矩阵2023/4/171263.2.1离散单输出感知器训练算法•二值网络:自变量及其函数的值、向量分量的值只取0和1函数、向量。•权向量:W=(w1,w2,…,wn)•输入向量:X=(x1,x2,…,xn)•训练样本集:–{(X,Y)|Y为输入向量X
对应的输出}2023/4/17127算法3-1离散单输出感知器训练算法1.初始化权向量W;2.重复下列过程,直到训练完成:2.1对每个样本(X,Y),重复如下过程:2.1.1输入X;2.1.2计算o=F(XW);2.1.3如果输出不正确,则当o=0时,
取W=W+X,当o=1时,取W=W-X2023/4/171283.2.2离散多输出感知器训练算法•样本集:{(X,Y)|Y为输入向量X对应的输出}•输入向量:X=(x1,x2,…,xn)•理想输出向量:
Y=(y1,y2,…,ym)•激活函数:F•权矩阵W=(wij)•实际输出向量:O=(o1,o2,…,om)o1多输出感知器x1x2o2omxn…………输入层输出层2023/4/17129算法3-2离散多输出感知器训练算法1.初始化权矩阵W;2.重复下列过程,直到训练完成:2.1对每个样本(X,
Y),重复如下过程:2.1.1输入X;2.1.2计算O=F(XW);2.1.3forj=1tomdo执行如下操作:ifoj≠yjthenifoi=0thenfori=1tonwij=wij+xielse
fori=1tondowij=wij-xi2023/4/17130算法3-2离散多输出感知器训练算法•算法思想:将单输出感知器的处理逐个地用于多输出感知器输出层的每一个神经元的处理。•第1步,权矩阵的初始化:一系列小伪随机数。2023/4/17131算法3-2离散多输出感知器
训练算法•第2步,循环控制。•方法1:循环次数控制法:对样本集执行规定次数的迭代•改进——分阶段迭代控制:设定一个基本的迭代次数N,每当训练完成N次迭代后,就给出一个中间结果2023/4/17132算法3-2离散多输出感知器训练算法•方法
2:精度控制法:给定一个精度控制参数–精度度量:实际输出向量与理想输出向量的对应分量的差的绝对值之和;–实际输出向量与理想输出向量的欧氏距离的和–“死循环”:网络无法表示样本所代表的问题2023/4/17133算法3-2离散多输出感知器训练算法•方法3:综合控制法:将这两种方法结合起来使用•注意:
精度参数的设置。根据实际问题选定;初始测试阶段,精度要求低,测试完成后,再给出实际的精度要求。2023/4/171343.2.3连续多输出感知器训练算法•用公式wij=wij+α(yj-oj)xi取代了算法3-2第2.1.3步中的多个判断•yj与oj
之间的差别对wij的影响由α(yj-oj)xi表现出来•好处:不仅使得算法的控制在结构上更容易理解,而且还使得它的适应面更宽2023/4/17135算法3-3连续多输出感知器训练算法1.用适当的小伪随机数初始化权矩阵W;2.初置精度控制参数ε,学习率α,精度控制变量d=ε+1;3.
Whiled≥εdo3.1d=0;3.2for每个样本(X,Y)do3.2.1输入X(=(x1,x2,…,xn));3.2.2求O=F(XW);3.2.3修改权矩阵W:fori=1ton,j=1tomdowij=
wij+α(yj-oj)xi;3.2.4累积误差forj=1tomdod=d+(yj-oj)22023/4/17136算法3-3连续多输出感知器训练算法1、程序实现:ε、α、d、i、j、n、m为简单变量来表示,W为n行m列的
二维数组。样本集二维数组2、系统的调试3、Minsky在1969年证明,有许多基本问题是感知器无法解决4、问题线性可分性可能与时间有关5、很难从样本数据集直接看出问题是否线性可分6、未能证明,一个感知器究竟需要经过多少步才能完成训练。2023/4/17137
3.3线性不可分问题3.3.1异或(Exclusive–OR)问题g(x,y)y01x0011102023/4/17138用于求解XOR的单神经元感知器xyo单神经元感知器的图像ax+by=θ1yx1(0,0)(1,1)2023/4/17139线性不可分函数变量函数
及其值xyf1f2f3f4f5f6f7f8f9f10f11f12f13f14f15f160000000000111111110100001111000011111000110011001100111101010101010101012023/4/17140线性不可分函数
•R.O.Windner1960年自变量个数函数的个数线性可分函数的个数144216143256104465,536188254.3*10994,57261.8*10195,028,1342023/4
/171413.3.2线性不可分问题的克服•用多个单级网组合在一起,并用其中的一个去综合其它单级网的结果,我们就可以构成一个两级网络,该网络可以被用来在平面上划分出一个封闭或者开放的凸域来•一个非凸域可以拆分成多个凸域。按照这一思路,三级网将会更一般一些,我们可以用它去识别出一些非凸域来
。•解决好隐藏层的联接权的调整问题是非常关键的2023/4/17142两级单输出网在n维空间中划分出m边凸域…x1ANmAN1ANoxn…o2023/4/17143第1次课堂测试(5分*4)1.Newell和Simon的物理符号系统所基于的假说是什么?它在什么层面上如何实现对人类智能的模
拟?2.联接主义观点所基于的假说是什么?它在什么层面上如何实现对人类智能的模拟?3.画出有导师算法的流程图。4.证明:一个激活函数为线性函数的3级非循环网等价于一个单级网。2023/4/17144习题
•P381、62023/4/17145第1次课堂测试解答要点1.Newell和Simon的物理符号系统所基于的假说是什么?它在什么层面上如何实现对人类智能的模拟?要点:物理符号系统;心理;符号对事务及变换的描述2.联接主义观点
所基于的假说是什么?它在什么层面上如何实现对人类智能的模拟?要点:联接机制;生理;模式、联接权的调整与对变换的表示2023/4/17146第1次课堂测试解答要点3.画出有导师学习算法的流程图。要点:如何处理精度与样本
集两层循环4.证明:一个激活函数为线性函数的3级非循环网等价于一个单级网。要点:一级网与多级网的的数学模型2023/4/17147上次课内容回顾:学习算法•离散单输出感知器训练算法–W=W+X;W=W-X–W=W+(Y-O)X•离散多输出感知器训练算法–Wj=
Wj+(yj-oj)X•连续多输出感知器训练算法–wij=wij+α(yj-oj)xi2023/4/17148上次课内容回顾:线性不可分问题ax+by=θ1yx1(0,0)(1,1)•线性不可分问题的克服•两级网络可以划分出封闭或开
放的凸域•多级网将可以识别出非凸域•隐藏层的联接权的调整问题是非常关键2023/4/17149第4章BP网络•主要内容:–BP网络的构成–隐藏层权的调整分析–Delta规则理论推导–算法的收敛速度及其改进讨论
–BP网络中的几个重要问题•重点:BP算法•难点:Delta规则的理论推导2023/4/17150第4章BP网络4.1概述4.2基本BP算法4.3算法的改进4.4算法的实现4.5算法的理论基础4.6几个问题的讨论2023/4/171514.1
概述1、BP算法的出现非循环多级网络的训练算法UCSDPDP小组的Rumelhart、Hinton和Williams1986年独立地给出了BP算法清楚而简单的描述1982年,Paker就完成了相似的工作1974
年,Werbos已提出了该方法2、弱点:训练速度非常慢、局部极小点的逃离问题、算法不一定收敛。3、优点:广泛的适应性和有效性。2023/4/171524.2基本BP算法•4.2.1网络的构成神经元的网络输入
:neti=x1w1i+x2w2i+…+xnwni神经元的输出:netenetfo−+==11)()1()()1(1)(22ooooeenetfnetnet−=−=−+−=−−2023/4/17153输出函数分析0.5f′(net)0.25o011(0,0.5)net
(0,0)oneteo−+=11–应该将net的值尽量控制在收敛比较快的范围内–可以用其它的函数作为激活函数,只要该函数是处处可导的2023/4/17154网络的拓扑结构x1o1输出层隐藏层输入层x2o2omxn…………………W(1)W(2)W(3)
W(L)2023/4/17155网络的拓扑结构1.BP网的结构2.输入向量、输出向量的维数、网络隐藏层的层数和各个隐藏层神经元的个数的决定3.实验:增加隐藏层的层数和隐藏层神经元个数不一定总能够提高网络精度和表达能力。4.BP网一般
都选用二级网络。2023/4/17156网络的拓扑结构x1o1输出层隐藏层输入层x2o2omxn…………WV2023/4/171574.2.2训练过程概述样本:(输入向量,理想输出向量)权初始化:“小随机数”与饱和状态;“不同”保证
网络可以学。1、向前传播阶段:(1)从样本集中取一个样本(Xp,Yp),将Xp输入网络;(2)计算相应的实际输出Op:Op=Fl(…(F2(F1(XpW(1))W(2))…)W(L))2023/4/171584.2.2训练过程概述2、向后传播阶段——误差传播阶段:(1
)计算实际输出Op与相应的理想输出Yp的差;(2)按极小化误差的方式调整权矩阵。(3)网络关于第p个样本的误差测度:()=−=mjpjpjpoyE1221(4)网络关于整个样本集的误差测度:=ppEE2023/4/171594.2.3误差传播分析1、
输出层权的调整wpq=wpq+∆wpq∆wpq=αδqop=αfn′(netq)(yq-oq)op=αoq(1-oq)(yq-oq)opwpqANpANq第L-1层第L层∆wpq2023/4/171602、隐藏层权的调整ANpANqANhvhpδpk-1δ1kwp1wpqδqkwpmδmk第
k-2层第k层第k-1层……2023/4/171612、隐藏层权的调整δpk-1的值和δ1k,δ2k,…,δmk有关不妨认为δpk-1通过权wp1对δ1k做出贡献,通过权wp2对δ2k做出贡献,……通过权wpm对δmk做出贡献。
δpk-1=fk-1′(netp)(wp1δ1k+wp2δ2k+…+wpmδmk)2023/4/171622、隐藏层权的调整vhp=vhp+∆vhp∆vhp=αδpk-1ohk-2=αfk-1′(netp)(wp1δ1k+wp2δ2k+…+wpmδmk)ohk-2=αo
pk-1(1-opk-1)(wp1δ1k+wp2δ2k+…+wpmδmk)ohk-2ANpANqANhvhpδpk-1δ1kwp1wpmδqkwpqδmk第k-2层第k层第k-1层……2023/4/17163上次
课内容回顾•基本BP算法–neti=x1w1i+x2w2i+…+xnwninetenetfo−+==11)()1()()1(1)(22ooooeenetfnetnet−=−=−+−=−−2023/4/17164上次课内容回顾
x1o1输出层隐藏层输入层x2o2omxn…………WV2023/4/17165上次课内容回顾•样本•权初始化•向前传播阶段–Op=Fn(…(F2(F1(XpW(1))W(2))…)W(n))•误差测度()=−=mjpjp
jpoyE12212023/4/17166上次课内容回顾•向后传播阶段——误差传播阶段–输出层权的调整•∆wpq=αδqop=αfn′(netq)(yq-oq)op=αoq(1-oq)(yq-oq)op–隐藏层权的调
整ANpANqANhvhpδpk-1δ1kwp1wpqδqkwpmδmk……∆vhp=αopk-1(1-opk-1)(wp1δ1k+wp2δ2k+…+wpmδmk)ohk-22023/4/171674.2.
4基本的BP算法•样本集:S={(X1,Y1),(X2,Y2),…,(Xs,Ys)}•基本思想:–逐一地根据样本集中的样本(Xk,Yk)计算出实际输出Ok和误差测度E1,对W(1),W(2),…,W(L)各做一次调整,重复这个循环,直到∑Ep<ε。–用输出层的误差调整输出层权
矩阵,并用此误差估计输出层的直接前导层的误差,再用输出层前导层误差估计更前一层的误差。如此获得所有其它各层的误差估计,并用这些估计实现对权矩阵的修改。形成将输出端表现出的误差沿着与输入信号相反的方向逐级向输入端传递的过程2023/4/17168算法4-1基本BP算法
1fork=1toLdo1.1初始化W(k);2初始化精度控制参数ε;3E=ε+1;4whileE>εdo4.1E=0;2023/4/17169算法4-1基本BP算法4.2对S中的每一个样本(Xp,Yp):4.2.
1计算出Xp对应的实际输出Op;4.2.2计算出Ep;4.2.3E=E+Ep;4.2.4根据相应式子调整W(L);4.2.5k=L-1;4.2.6whilek≠0do4.2.6.1根据相应式子调整W(k);4.2.6.2k=k-14.3E=E/2.02023
/4/171704.3算法的改进1、BP网络接受样本的顺序对训练结果有较大影响。它更“偏爱”较后出现的样本2、给集中的样本安排一个适当的顺序,是非常困难的。3、样本顺序影响结果的原因:“分别”、“依次”4、用(X1,Y1),(X2
,Y2),…,(Xs,Ys)的“总效果”修改W(1),W(2),…,W(L)。∆w(k)ij=∑∆pw(k)ij2023/4/17171算法4-2消除样本顺序影响的BP算法1fork=1toLdo1.1初始
化W(k);2初始化精度控制参数ε;3E=ε+1;4whileE>εdo4.1E=0;4.2对所有的i,j,k:∆w(k)ij=0;2023/4/171724.3对S中的每一个样本(Xp,Yp):4.3.1计算出Xp对应的实际输出Op;4.3.
2计算出Ep;4.3.3E=E+Ep;4.3.4对所有i,j根据相应式子计算∆pw(L)ij;4.3.5对所有i,j:∆w(L)ij=∆w(L)ij+∆pw(L)ij;4.3.6k=L-1;4.3.7whilek≠0do4.
3.7.1对所有i,j根据相应式子计算∆pw(k)ij;4.3.7.2对所有i,j:∆w(k)ij=∆w(k)ij+∆pw(k)ij;4.3.7.3k=k-14.4对所有i,j,k:w(k)ij=w(k)ij+∆w(k)ij;4.5E=E/2.02023/4/17173算法4-2分析•较好地解决
了因样本的顺序引起的精度问题和训练的抖动问题•收敛速度:比较慢•偏移量:给每一个神经元增加一个偏移量来加快收敛速度•冲量:联接权的本次修改要考虑上次修改的影响,以减少抖动问题2023/4/17174算法4-2分析——冲量设置•Rumelhart等人1986年–∆wij=αδjoi+β∆wij′
–∆wij′为上一次的修改量,β为冲量系数,一般可取到0.9•Sejnowski与Rosenberg,1987年–∆wij=α((1-β)δjoi+β∆wij′)–∆wij′也是上一次的修改量,β在0和1之间取值2023/4/171754.4算法的实现
•主要数据结构W[H,m]——输出层的权矩阵;V[n,H]——输入(隐藏)层的权矩阵;∆o[m]——输出层各联接权的修改量组成的向量;∆h[H]——隐藏层各联接权的修改量组成的向量;O1——隐藏层的输出向量;O2——输出层的输出向量;(X,Y)——一个样本
。2023/4/17176算法的主要实现步骤1用不同的小伪随机数初始化W,V;2初始化精度控制参数ε;学习率α;3循环控制参数E=ε+1;循环最大次数M;循环次数控制参数N=0;4whileE>ε&N<Mdo4.1N=N+1;E=0;4.2对每一个样本(X,Y),执行如下操作2
023/4/171774.2对每一个样本(X,Y),执行的操作4.2.1计算:O1=F1(XV);O2=F2(O1W);4.2.2计算输出层的权修改量fori=1tom4.2.2.1∆o[i]=O2[i]*(1-O2[i])*(Y[i]-O2[i]);4.2.3计算输出误差:fori=1tom4.
2.3.1E=E+(Y[i]-O2[i])2;2023/4/171784.2对每一个样本(X,Y),执行的操作4.2.4计算隐藏层的权修改量:fori=1toH4.2.4.1Z=0;4.2.4.2forj=1to
mdoZ=Z+W[i,j]*∆o[j];4.2.4.3Δh[i]=Z*O1[i](1-O1[i]);4.2.5修改输出层权矩阵:fork=1toH&i=1tom4.2.5.1W[k,i]=W[k,i]+α*O1[k]*∆o[i];4.2.
5修改隐藏层权矩阵:fork=1ton&i=1toH4.2.5.1V[k,i]=V[k,i]+α*X[k]*∆h[i];2023/4/17179建议•隐藏层的神经元的个数H作为一个输入参数•同时将ε、循环最大次数M等,作为算法的输入参
数•在调试阶段,最外层循环内,加一层控制,以探测网络是否陷入了局部极小点2023/4/171804.5算法的理论基础•基本假设–网络含有L层–联接矩阵:W(1),W(2),…,W(L)–第k层的神经元:Hk个–自变
量数:n*H1+H1*H2+H2*H3+…+HL*m–样本集:S={(X1,Y1),(X2,Y2),…,(Xs,Ys)}•误差测度:==sppEE12023/4/17181用E代表EP,用(X,Y)代表(XP,YP)X=(x
1,x2,…,xn)Y=(y1,y2,…,ym)该样本对应的实际输出为O=(o1,o2,…,om)==sppEE1误差测度2023/4/17182误差测度•用理想输出与实际输出的方差作为相应的误差测度−==m1k2kk)oy(2
1E==sppEE12023/4/17183最速下降法,要求E的极小点ijijwEw−wijijwEE>0,此时Δwij<0取ijwEE<0,此时Δwij>0wij2023/4/17184ijjjijwne
tnetEwE−=−而其中的=kkkjjownet所以,iijkkkjijjowowwnet==最速下降法,要求E的极小点2023/4/17185ijijkkkjjijjjijonetEwownetEwnetnet
EwE−=−=−=−令jjnetE−=所以Δwij=αδjoiα为学习率最速下降法,要求E的极小点2023/4/17186ANj为输出层神经元oj=f(netj)容易得到)n
et(fnetojjj=)net(foEnetooEnetEjjjjjjj−=−=−=从而2023/4/17187()())())(22()21(21212jjjjjjjjmkkkjoyoyooyooyoE−=−−−=−−=−−=−=A
Nj为输出层神经元2023/4/17188所以,)net(f)oy(jjjj−=故,当ANj为输出层的神经元时,它对应的联接权wij应该按照下列公式进行调整:ijjjijijijijo)oy)(net(fwoww−+=+=ANj为输出层神
经元2023/4/17189ANj为隐藏层神经元jjjjjnetooEnetE−=−=)net(fnetojjj=)net(foEjjj−=−==m1k2kk)oy(21E函数2023/4/17190ANj为隐藏层神经元netk=
=hH1iiikow==hH1kjkkj)onetnetE(oEjkjH1iiikjkwoowoneth===oj…o2o1oHhnetk是oj下一级的神经元的网络输入2023/4/17191ANj为隐藏层神经元
====hhH1kjkkH1kjkkjwnetEonetnetEoE−==hH1kjkkjwoEkknetE−=2023/4/17192ANj为隐藏层神经元)net
(fw)net(foEjH1kjkkjjjh−−=−==)net(fwjH1kjkkjh==2023/4/17193ANj为隐藏层神经元ijH1kjkkijo)net(fwwh
==ijH1kjkkijijo)net(fwwwh+==2023/4/171944.6几个问题的讨论•收敛速度问题•局部极小点问题–逃离/避开局部极小点:修改W、V的初值——并不是总有效。–逃离——统计方法;[Wasserman
,1986]将Cauchy训练与BP算法结合起来,可以在保证训练速度不被降低的情况下,找到全局极小点。2023/4/171954.6几个问题的讨论•网络瘫痪问题–在训练中,权可能变得很大,这会使神经元的网络输入变得很大,从而又使得其激活函数的导函数在此点上的
取值很小。根据相应式子,此时的训练步长会变得非常小,进而将导致训练速度降得非常低,最终导致网络停止收敛•稳定性问题–用修改量的综合实施权的修改–连续变化的环境,它将变成无效的2023/4/171964.6
几个问题的讨论•步长问题–BP网络的收敛是基于无穷小的权修改量–步长太小,收敛就非常慢–步长太大,可能会导致网络的瘫痪和不稳定–自适应步长,使得权修改量能随着网络的训练而不断变化。[1988年,Wasserman]2023/4/17197练习•
P541、5、102023/4/17198上次课内容回顾•基本BP算法•算法的改进–用(X1,Y1),(X2,Y2),…,(Xs,Ys)的“总效果”修改W(1),W(2),…,W(L)–∆w(k)ij=∑∆pw(k)ij2023/4/17199上
次课内容回顾•改进算法有关问题–抖动、收敛速度、偏移量、冲量•算法的实现–循环控制、算法的调试•算法的理论基础==sppEE1ijijwEw−2023/4/17200上次课内容回顾•问题的讨论–收敛速度–局部极小点–网络瘫痪–稳定性–步长2
023/4/17201第5章对传网•主要内容:CPN的网络结构,正常运行,输入向量的预处理,Kohonen层的训练算法及其权矩阵的初始化方法;Grossberg层的训练;完整的对传网•重点:Kohonen层与Grossberg层的正常运行与训练•难点:Kohonen层的训练
算法及其权矩阵的初始化方法2023/4/17202第5章对传网5.1网络结构5.2网络的正常运行5.3Kohonen层的训练5.4Kohonen层联接权的初始化方法5.5Grossberg层的训练5.6补充说明2023/4/17203第5章
对传网•RobertHecht-Nielson在1987年提出了对传网(CounterpropagationNetworks,CPN)。•CPN为异构网:–Kohonen1981年提出的Self-organizationmap•SOM——Kohonen层–Grossberg1969年提出的
Outstar——Grossberg层•训练时间短:BP的1%。应用面:比较窄•让网络的隐藏层执行无导师学习,是解决多级网络训练的另一个思路2023/4/172045.1网络结构•单向CPN,完整CPN(双向网)•除拓扑结构外
,网络的运行机制也是确定网络结构(同构、异构)和性能的重要因素•网络的层数计算2023/4/172055.1网络结构x1y1WV自组织映射(无导师学习)Kohonen层散射星(有导师学习)Grossberg层输入层K1G1K2G2x2y2………KhGmxnym2023/4/17206
5.1网络结构•以Kohonen层的神经元为“中心”讨论问题•K1–W1=(w11,w21,…,wn1)T–V1=(v11,v12,…,v1m)•K2–W2=(w12,w22,…,wn2)T–V2=(v21,v22,…,v2m)……•K
h–Wh=(w1h,w2h,…,wnh)T–Vh=(vh1,vh2,…,vhm)2023/4/172075.2网络的正常运行5.2.1Kohonen层•“强者占先、弱者退出”(thewinnertakesall)knetj=XWj=(x1,x2,…,xn)(w1j,w2j,…,wn
j)T=w1jx1+w2jx2+…+wnjxn向量形式KNET=(knet1,knet2,…,kneth)2023/4/172085.2.1Kohonen层•K1,K2,…,Kh的输出k1,k2,…,kh构成向量K=(k1,k2,…,kh)•1≦j≦h1knetj=Max{knet1,kne
t2,…,kneth}kj=0其它•几何意义2023/4/172095.2.2Grossberg层•Grossberg层的每个神经元Gj(1≦j≦m)gnetj=K(v1j,v2j,…,vhj)T=(k1,k2,…,kh)(v1j,v2j,…,vhj)T=k1v1j+k
2v2j+…+khvhj唯一输出1的神经元为Kognetj=k1v1j+k2v2j+…+khvhj=voj2023/4/172105.2.2Grossberg层GNET=(gnet1,gnet2,…,gnetm)=(vo
1,vo2,…,vom)=Vo•散射星:Vo的各个分量是从Ko到Grossberg层各神经元的联接权2023/4/172115.2.2Grossberg层•CPN用于模式的完善,此时n=m:接受含有噪音的输入模式(x1,x2,…,xn),而输出去掉噪音后的模式(vo
1,vo2,…,vom)•对训练启示–W1,W2,…,Wh,各类X的共同特征–V1,V2,…,Vh,X对应的理想输出Y的共同特征2023/4/172125.3Kohonen层的训练5.3.1输入向量的预处
理单位化处理X=(x1,x2,…,xn)X′=(x1′,x2′,…,xn′)=(x1/‖X‖,x2/‖X‖,…,xn/‖X‖)2023/4/172135.3.2训练算法5-1Kohonen层训练算法1对所
有的输入向量,进行单位化处理;2对每个样本(X,Y)执行下列过程2.1forj=1tohdo根据相应式子计算knetj;2.2求出最大的kneto:2.2.1max=knet1;o=12.2.2forj=1tohdoifknetj>maxthen{max=knet
j;o=j};2023/4/17214算法5-1Kohonen层训练算法2.3计算K2.3.1forj=1tohdokj=0;2.3.2ko=1;2.4使Wo更接近X:Wo(new)=Wo(old)+α(X-Wo(old
));2.5对Wo(new)进行单位化处理2023/4/17215Wo(new)=Wo(old)+α(X-Wo(old))α∈(0,1)Wo(new)=Wo(old)+α(X-Wo(old))=Wo(old)+αX-αWo(old)X-Wo(new)=X-[
Wo(old)+α(X-Wo(old))]=X-Wo(old)-αX+αWo(old)=X(1-α)-Wo(old)(1-α)=(1-α)(X-Wo(old))由0<(1-α)<1,Wo(new)比Wo(old)更接近X2023/
4/17216o单位圆Wo(new)=Wo(old)+α(X-Wo(old))Wo(old)(1-α)(X-Wo(old))Wo(new)(X-Wo(old))X(X-Wo(old))-Wo(old)2023/4/17217学习率α•训练初期,α一般取0.7左右,它将随着训
练进展不断变小•α过大可能导致有的X被放入错误的类中;使训练陷入抖动•根据X的分布决定W的初值:防止类过小和过大2023/4/17218启发•一般来说,一个类含有许多向量。这个类对应的Wj应该是样本集中这一类向量(输入向量部分)的平均值。•事先给问题一个粗略分类,并从
这个分类中提取一个较有代表性的向量构成样本集•启发我们采用训练和直接设定权向量的方式来完成该层的训练。2023/4/17219上次课内容回顾•CPN为异构网–Kohonen层——SOM–Grossberg层——Outstar•训练时
间短:BP的1%。应用面:比较窄•除拓扑结构外,网络的运行机制也是确定网络结构(同构、异构)和性能的重要因素2023/4/17220拓扑结构x1y1WV自组织映射(无导师学习)Kohonen层散射星(
有导师学习)Grossberg层输入层K1G1K2G2x2y2………KhGmxnym2023/4/17221上次课内容回顾•以Kohonen层的神经元为“中心”讨论问题•Kohonen层:“强者占先、弱者退出”–K=(0,…,0,1,0,…,0)•Grossberg
层:散射星–gnetj=k1v1j+k2v2j+…+khvhj=voj–GNET=(gnet1,gnet2,…,gnetm)=(vo1,vo2,…,vom)=Vo•CPN用于模式的完善2023/4/17222上次课内容回顾•强调X和W
的单位化处理•对训练启示–W1,W2,…,Wh,各类X的共同特征–V1,V2,…,Vh,X对应的Y的共同特征•Kohonen层的训练Wo(new)=Wo(old)+α(X-Wo(old))2023/4/172235.4Kohonen层联接权初始化•理想情况下,W1,W2,…,Wh的初值应该依照样
本集中的输入向量的分布来确定•样本集中的输入向量的分布并不是均匀的2023/4/17224o单位圆Xi的非均匀分布要求Wi非均匀分布X2X1X32023/4/17225凸状组合法取wij=)n(sqrt1将输入向量X=(x1,x2,…,xn)变换为X′=(x1′,x2′
,…,xn′)其中nxxjj−+=12023/4/17226凸状组合法随着训练的进行,λ趋近于1,从而使X′趋近于X,进而Wj趋近于一组X的平均值。)1,,1,1(nnnX在训练的初期阶段,λ的值非常小,使得W需要追踪一个
变化的目标2023/4/17227添加噪音法•在输入向量中加进适当的随机噪音,使输入向量的分布均匀。训练中逐渐去掉噪音•Wj不断地调整自己的“运动方向”,去追踪其不断变化的目标。试验表明,这种方法的收敛速度比凸状组合法更慢。W也需要追踪一个变化的目标2023/4/17228X在加噪音后变成
均匀分布的o单位圆2023/4/17229初期全调法•Kohonen层训练的初期,对应一个输入向量,允许多个神经元同时处于激发状态。逐渐减少被激发的神经元的最大个数或者逐渐提高阈值,最后达到对一个输入向量,只有一个神经元激发•要解决的问题–问题调整的范围的度量。2023/4/17230初
期全调法•另一种实现–在训练的初期,算法不仅调整“获胜”的神经元对应的权向量,而且对其它的权向量也作适当的调整。随着训练的推进,被调整的范围逐渐缩小,直到最终只有“获胜”的神经元对应的权向量才被调整•要解决的问题–问题调整的范围的度量。–
其它的权向量的“适当调整”2023/4/17231DeSieno法•当某一个权向量所获得的匹配向量超过给定的数(1/h)后,它的阈值就被临时提高•问题:当最应该被某个神经元对应的权向量匹配的输入向量在较后的时候被输入时,它可能被拒绝,从而造成网络精度的损失•Kohonen[1988
]:在一个被完全训练过的网中,随机选取的输入向量与任何给定权向量是最接近的概率是1/h–按均匀分布初始化的权向量具有相同被匹配概率2023/4/172325.5Grossberg层的训练•训练–标量形式voj=voj+α(yj-voj)–向量形式Vo(new)=Vo(old)+α(Y-
Vo(old))•比较Wo(new)=Wo(old)+α(X-Wo(old))Kohonen层2023/4/17233算法5-2CPN训练算法一0对W、V进行初始化;1对所有的输入向量,进行单位化处理;2对每个样本(X,Y)执行下列过程2.1forj=1t
ohdo根据knetj=XWj计算knetj;2.2求出最大的kneto:2.2.1max=knet1;o=1;2.2.2forj=1tohdo2.2.2.1ifknetj>maxthen{max=knetj;o=j};2023/4/17234算法5-2CPN训练算法一2.3计算K:
2.3.1forj=1tohdokj=0;2.3.2ko=1;2.4使Wo更接近X:Wo(new)=Wo(old)+α(X-Wo(old));2.5对Wo(new)进行单位化处理;2.6使Vo更接近Y:Vo(new)=Vo(old)+α(Y-Vo(old))。2023/4/1723
5算法5-3CPN训练算法二•对应Kohonen的每一个Ki,它将代表一组输入向量,所以希望这个Ki对应的Vi能代表这组输入向量对应的输出向量的平均值。0对W、V进行初始化;0′清空Kohonen层各神经元对应的纪录表:forj=1tohdoSKj=Φ;1对所有的输入向量
,进行单位化处理;2023/4/17236算法5-3CPN训练算法二2对每个样本(Xs,Ys)执行下列过程2.1forj=1tohdo2.1.1根据相应式子计算knetj;2.2求出最大的kneto:2.2.1max=
knet1;o=1;2.2.2forj=1tohdo2.2.2.1ifknetj>maxthen{max=knetj;o=j};2023/4/17237算法5-3CPN训练算法二2.3计算K:2.3.1forj=1tohd
okj=0;2.3.2ko=1;2.4使Wo更接近Xs:Wo(new)=Wo(old)+α(Xs-Wo(old));2.5对Wo(new)进行单位化处理;2.6将Ys放入SKo:SKo=SKo∪{Ys};3forj=1tohdoVj=SKj中各向量的平均值
2023/4/17238算法的进一步优化•集合变量SK1,SK2,…,SKh改为其它存储量更小,而且更容易实现的变量•在Xs激发Ko时,Ys被放入到SKo中–会不会出现一个向量被放入多个SK中的问题–如何解决2023/4/172
395.6补充说明1、全对传网WVXY′………Y…X′输入层Kohonen层Grossberg层2023/4/172402、非简单工作方式•对给定的输入向量,Kohonen层各神经元可以给出不同的输出•输出作为修改因子–对应神经元Kohonen层、Gros
sberg层的权向量–输出值较大的,表明该输入向量与该神经元对应的类较接近,它对应的权向量的修改量就大–输出值较小的,表明该输入向量与该神经元对应的类较远,它对应的权向量的修改量就小。2023/4/17241练习•P691、5、82023/4/17242上次课内容
回顾•Kohonen层联接权初始化–凸状组合法–添加噪音法–初期全调法–DeSieno法•Kohonen层的训练–Wo(new)=Wo(old)+α(X-Wo(old))•Grossberg层的训练–Vo(new)=Vo(old)+α(Y-Vo(old))20
23/4/17243上次课内容回顾•CPN训练算法讨论–关于反复使用样本集进行训练的问题•CPN训练算法改造–两层一起训练,分开训练–SK的处理问题•全对传网2023/4/17244第6章非确定方法•主要
内容:–统计网络的基本训练算法–模拟退火算法与收敛分析–Cauchy训练–人工热与临界温度在训练中的使用–BP算法与Cauchy训练的结合。•重点:统计网络的基本训练算法,BP算法与Cauchy训练的结合•难点:模拟退火算法与收敛分析2023/4/17245第6章非确定方法6.1基本的非
确定训练算法6.2模拟退火算法6.3Cauchy训练6.4相关的几个问题2023/4/17246第6章非确定方法•确定的方法–前几章所给方法的共同特征•非确定的方法–生物神经网络按照概率运行•别称–统计方法(StatisticalMethod)。•既可以用于训练,又可以用于运行2023
/4/172476.1基本的非确定训练算法•基本思想–从所给的网络中“随机地选取一个联接权”,对该联接权提出一个“伪随机调整量”,当用此调整量对所选的联接权进行修改后,如果“被认为”修改改进了网络的性能,则保留此调整;否则放弃本次调整。2023/4/172486
.1基本的非确定训练算法•基本数据结构–样本集:S={(X1,Y1),(X2,Y2),…,(Xs,Ys)}–输入向量:X=(x1,x2,…,xn)–理想输出向量:Y=(y1,y2,…,ym)–L层:W(1),W(
2),…,W(L)2023/4/172496.1基本的非确定训练算法•拓扑结构x1o1输出层隐藏层输入层x2o2omxn…………………W(1)W(L)W(2)2023/4/17250算法6-1基本统计
训练算法1从样本集S中取一样本(X,Y);2将X输入到网络中,计算出实际输出O;3求出网络关于Y,O的误差测度E;4随机地从W(1),W(2),…,W(L)中选择一个联接权wij(p);5生成一个小随机数Δwij(p);6用Δwij(p
)修改wij(p);2023/4/17251算法6-1基本统计训练算法7用修改后的W(1),W(2),…,W(L)重新计算X对应的实际输出O′;8求出网络关于Y,O′的误差测度E′;9如果E′<E,则保留
本次对W(1),W(2),…,W(L)的修改,否则,根据概率判断本次修改是否有用,如果认为有用,则保留本次对W(1),W(2),…,W(L)的修改,如果认为本次修改无用,则放弃它;10重复上述过程,直到网络满足要求。2023/4/172
52算法6-1基本统计训练算法•目标函数(ObjectiveFunction)–误差测度函数:实际输出与理想输出方差和•计算量–从W(1),W(2),…,W(L)中随机地选择wij–共有n×H1+H1×H2+H2×H3+…+HM-1×m个“变量”可供选择•伪随机数
–伪随机数发生器来产生Δwij(p);–按照所谓的“能量”函数的分布去计算它2023/4/17253算法6-1基本统计训练算法•局部极小点–当E′<E不成立时,考虑使网络从局部极小点中逃离出来,必须允许目标函数暂时变坏•循环控制–判断标准–用一个样本对网络的某一个联接权进行修改后
,是随机地抽取另一个联接权进行重复,还是再选择下一个样本进行重复–对一个选定的样本,每次是否可以选取若干个联接权进行修改?如果可以,还应做什么工作?2023/4/17254逃离局部极小点•联接权修改量–太小:落到A点后很难逃离–太大:导致在A、B两点来回抖动•解决办法–控制联
接权修改量的大小:权修改量由大变小–允许暂时变坏•修改量的大小和网络的“能量”相关–模拟退火ABD2023/4/17255逃离局部极小点DBA2023/4/172566.2模拟退火算法•金属中原子的能量与温度有关•原子能
量高的时候,有能力摆脱其原来的能量状态而最后达到一个更加稳定的状态——全局极小能量状态•在金属的退火过程中,能量的状态分布−kTEexpP(E)——系统处于具有能量E的状态的概率;k——Boltzmann常数;T——系统的绝对温度(Kelvin)P(E)
∝2023/4/17257步长和能量、温度的关系降温过程高温低温原子运动平稳原子激烈随机运动能量与温度相关步长与能量和温度相关步长与能量相关大步长小步长可逃离难逃离金属热加工大小高低高能量低能量目标函数的值网络的能量训练2023/4/17258
能量与温度1)exp(lim=−→kTET高温情况下:T足够大,对系统所能处的任意能量状态E,有−kTEexp将趋近于12023/4/17259能量与温度中温情况下:T比较小,E的大小对P(E)有较大的影响,设E1>E2P(E2)>P(E1)。即
,系统处于高能量状态的可能性小于处于低能量状态的可能性2023/4/17260能量与温度0))exp(1(lim)exp(lim))(exp(lim)exp()exp(lim)()(lim1210210210210210=−=−−
=−−=−−=→→→→→kTTTTTTEEkTEEkTEkTEkTEkTEEPEP2023/4/17261能量与温度低温情况下:T非常小,E的大小对P(E)的影响非常大,设E1>E2P(E2)>>P(E1)。即,当温度趋近于0时,系统几乎不可能处于高能量状态20
23/4/17262模拟退火组合优化法•目标函数——能量函数•人工温度T——一个初值较大的数•依据网络的能量和温度来决定联接权的调整量(称为步长)。•与金属的退火过程(Annealing)非常相似2023/4/17263模拟退火组合优化法•基本思想–随机
地为系统选择一个初始状态{wij(p)},在此初始状态下,给系统一个小的随机扰动Δwij(p),计算系统的能量变化–ΔE=E({wij(p)+Δwij(p)})-E({wij(p)})–若ΔE<0则接受–若ΔE≥0则依
据概率判断是否被接受–若接受,则系统从状态{wij(p)}变换到状态{wij(p)+Δwij(p)};否则,系统保持不变−kTEexp2023/4/17264模拟退火组合优化法–在这个过程中,逐渐地降低温度T。所得的系统状态序列{wij(p)}将满足下列分布
−=kTwETcfpij})({exp)()(−=)kT})w({Eexp(1)T(c)p(ij2023/4/17265算法6-2模拟退火算法1初始化个层的联接权矩阵W;定义人工温度T的初值;2对
每一个温度T重复如下过程:2.1取一样本,计算其输出与目标函数E({wij(p)});2.2随机地从{wij(p)}中选取一个wij(p);2.3按一定的算法产生wij(p)的一个调整量Δwij(p);2.4
按照{wij(p)+Δwij(p)}重新计算相应输出和目标函数E({wij(p)+Δwij(p)});2.5ΔE=E({wij(p)+Δwij(p)})-E({wij(p)});2023/4/17266算法6-2模拟退火算法2.6ifΔE>0then2
.6.1按均匀分布在[0,1]区间取一随机数r;2.6.2按Boltzmann分布计算接受本次调整的概率:P(E({wij(p)+Δwij(p)}))=2.6.3ifP(E({wij(p)+Δwij(p)}))<rthen转2.2;)kT})ww({Eexp
()p(ij)p(ij+−2023/4/17267算法6-2模拟退火算法2.7用{wij(p)+Δwij(p)}代替{wij(p)};2.8if样本集中还有未被选用的样本then转2.1;3判断在此温度下,检验Metropolis抽样是否稳定。如不稳定,则直接转2;4降低温度T;5如
果T足够小,则结束,否则,转2。2023/4/17268算法6-2模拟退火算法•算法的第2步原则上应该对每一个样本调整每一个权,调整的顺序是随机的;•温度T的降低–T=λT–λ叫做冷却率,一般情况下可以在[0.8,0.9]之间取
值–Geman(1984年):温度下降必须与时间的对数成反比,网络最终才能收敛到全局极小点)t1log(TT0+=2023/4/17269算法6-2模拟退火算法•T的初值T0–T0=E({w(h)});即:取初始系统目标函数(能量)的值–T0=zE({w(h)})。即:取初始系
统目标函数(能量)值的若干倍–按照经验给出2023/4/17270算法6-2模拟退火算法•调整量Δwij(p)的计算–可以根据Boltzmann分布或者Gaussian分布来计算。也可以用其它的方法。下面讨论
按Gaussian分布进行计算的方法。我们取如下形式的Gaussian分布函数。简洁起见,用符号w代替符号wij(p):p(Δw)=)Twexp(22−2023/4/17271MonteCarlo法•数值积分法–根据网络的精度要求,设一个积分步长
δ,然后通过数值积分构造出如下形式的表格w0dx)x(pΔwδ2δ3δ4δ…NδC1C2C3C4…CN2023/4/17272MonteCarlo法首先按照均匀分布在[C1,CN]中随机地取一个值C,然后,从{C1,C2,C3,…,CN}中选取Ck满足:|Ck-C|=m
in{|C-C1|,|C-C2|,|C-C3|,…,|C-CN|}Ck对应的kδ就是所需要的联接权调整量Δw2023/4/172736.3Cauchy训练•Boltzmann分布•Boltzmann训练•1987年,S.Szu和R.Hartley提出用Cauchy分布去取
代Gaussian分布22xTT+Cauchy分布p(x)=2023/4/172746.3Cauchy训练——优点•对于[C1,CN]中的任意一个C,它按照Cauchy分布所能取到的联接权的调整量要大于按照Boltzmann分布所能
取到的联接权的调整量•用Cauchy分布取代Boltzmann分布后,温度可以下降得更快。这时,温度的下降变得与时间成反比:T0/(1+t)•Cauchy分布函数可以用常规的方法进行积分运算2023/4/17275Cauchy分布函数积分运算TwarctgTxarctgT1TdxxT1TdxxT
Tdx)x(pw0w022w022w0==+=+=2023/4/17276Cauchy分布函数积分运算•MonteCarlo法:在(0,1)中按照均匀分布随机取一数为P(Δw),再取当前的温度
,就可以直接地计算出Δw•Cauchy训练算法:–将算法6-2中的Boltzmann分布换成Cauchy分布TwwPtg=))((Δw=αTtg(P(Δw))2023/4/172776.4相关的几个问题•Boltzmann机–每个神经元可以有一个特殊
的阈值,用来限制神经元所获得的激活值−==n1kjkkjjxwnet神经元的状态概率发生变化。oj=1的概率为)Tnetexp(11Pjj−+=2023/4/17278Boltzmann机•Boltzmann机的目标函数(能量函
数)+==n1kkkjkjkkjooowE•“一致性函数”−−==n1kkkjkjkkjooowE2023/4/17279人工热问题•特殊热——温度关于能量的变化率–系统在能量跃变边界处的温度叫做
临界温度•人工特殊热/“伪特殊热”–系统的人工温度关于系统的能量函数(目标函数)的平均变化率•临界温度–临界温度时的小量下降,会引起能量函数值的较大变化–系统正处于一个局部极小点附近•临界温度点可以通过考察所定义的人
工特殊热的变化情况得到2023/4/17280BP算法与Cauchy训练的结合•Cauchy训练的速度比Boltzmann训练快•Cauchy训练的速度比BP算法慢•Cauchy训练有可能使网络逃离局部极小点•由BP算法提供直接计算部分,Cauchy算法提供
随机部分wij=wij+∆wij∆wij=α((1-β)δjoi+β∆wij′)+(1-α)∆wij(c)α∈(0,1)为学习率,β∈(0,1)为冲量系数2023/4/17281网络陷入瘫痪•执行对网络联接权的
压缩•如,如果将联接权压缩在(-a,a)以内,P.D.Wasserman曾给出如下建议公式a)awexp(1a2wijij−−+=2023/4/17282第2次课堂测试(5分*4)1.什么叫线性不可分问题?我们
是如何克服它的?2.BP算法是如何解决隐藏层的联接权的调整的,试进行适当的分析。3.叙述对传网中Kohonen层联接权的初始化方法。4.为什么需要花费如此大的力气进行Kohonen层联接权的初始化工作?2023/4/17283练习•P1、52023/4/17
284上次课内容回顾•非确定算法的基本思想–训练–工作•基本统计训练算法–算法–伪随机数:初值与调整量–循环控制2023/4/17285上次课内容回顾•模拟退火算法–基本思想–能量和温度相关•高温•中温•低温–步长与能量相关
•自适应步长•根据能量计算步长–MonteCarlo方法2023/4/17286上次课内容回顾•Cauchy训练•人工热问题•BP算法与Cauchy训练的结合•网络陷入瘫痪2023/4/17287第7章循环网络•主要内容–Ho
pfield网络实现的自相联存储–稳定性分析–统计Hopfield网与Boltzmann机–基本双联存储器(BAM)的结构与训练–几种相联存储网络–用Hopfield网解决TSP问题。2023/4/17288第7章循环网络•重点–Hopfield网络实现的自相联存储–基本双联存储器的结
构与训练。•难点–稳定性分析–用Hopfield网解决TSP问题2023/4/17289第7章循环网络7.1循环网络的组织7.2稳定性分析7.3统计Hopfield网与Boltzmann机7.4双联存储器的结构
7.5异相联存储7.6其它的双联存储器7.7Hopfield网用于解决TSP问题2023/4/17290第7章循环网络循环网络称为Hopfield网循环网络对输入信号的处理是一个逐渐“修复”、“加强”的过程。强烈变化较弱的变化不变化2023/4/172917.1循环
网络的组织•网络结构X1Xno1om………………2023/4/172927.1循环网络的组织•联接:神经元之间都是互联的wij,每个神经元都没有到自身的联接wii=0。•神经元个数h,输入向量维数n,输出向量维数m。h≥n,h≥m,n≥1,m≥1。•神经元:输入、输出、隐藏•状态变化:非同步、同
步•输入向量:X=(x1,x2,…,xn)•输出向量:O=(o1,o2,…,om)2023/4/172937.1循环网络的组织神经元的网络输入:+==nji&1ijiijjxownet阈值函数:oj=1ifnetj>θj0ifnetj<θjojifnetj=θj2
023/4/17294最基本的Hopfield网o1ono2x2x1xnW……•n=m=h2023/4/17295最基本的Hopfield网•希望网络的联接矩阵存放的是一组这样的样本,在联想过程中实现对信息的“修复”和“加强”,要求:它的输入向量和输出向量是相同的向量,即,X=
Y•样本集:S={X1,X2,…,Xs}2023/4/17296最基本的Hopfield网wii=01≤i≤n•W是一个对角线元素为0的对称矩阵:•W=X1T╳X1+X2T╳X2+…+XsT╳Xs-W0•W是各个样本向量自身的外积的和——网络实现的是自相联映射。=skjkikx
x1•权矩阵:wij=i≠j2023/4/17297最基本的Hopfield网•激活函数:改为S形函数后,系统就成为一个连续系统•多级循环网络除输出向量被反馈到输入层外,其它各层之间的信号传送均执行如下规定:第i-1层神经元的输出经过第i个连接矩阵被送入第i层。一般不考虑越层的信号传送、
中间的信号反馈和同层的神经元之间进行信号的直接传送2023/4/172987.2稳定性分析•网络的稳定性是与收敛性不同的问题•Cohen和Grossberg[1983年]:Hopfield网络的稳定性定理如
果Hopfield网络的联接权矩阵是对角线为0的对称矩阵,则它是稳定的•用著名的Lyapunov函数作为Hopfield网络的能量函数2023/4/17299Lyapunov函数——能量函数•作为网络的稳定性度量–wijoioj:网络的一致性测度。–xjoj:神经元的输入和输出的一致性测度
。–θjoj:神经元自身的稳定性的测度。+−−=====h1jjjn1jjjh1ih1jjiijooxoow21E2023/4/17300当ANk的状态从ok变成ok′1、ANk是输入神经元kkkkkkkkhkj&
1jkjjkhkj&1jjkkjhkj&1jjjnkj&1jjjhki&1ihkj&1jjiijooxoow21oow21oow21ooxoow21E+−−−−−−+−−=====
==kkkkhkjjjkkjhkjjjjnkjjjjhkiihkjjjiijooxoowooxoow+−−−+−−======&1&1&1&1&1212023/4/17301当ANk的状态从ok变成ok′
EEE−=wkk=0)]([1kkkkhjjkjooxow−−+−==kkkonet−−=)()()(])([&1kkkkkkhkjjjkkkjooooxooow−+−−−−==)]([&1kkkkhkjjjkjooxow
−−+−==2023/4/17302ΔΕ=-(netk-θk)Δok•ANk状态的变化:Δok=(ok′-ok)•Δok=0,ΔΕ=0•Δok>0,ok′=1&ok=0,ok由0变到1,netk>θk,netk-θk>0所以,-(ne
tk-θk)Δok<0故ΔΕ<0结论:网络的目标函数总是下降•Δok<0,ok′=0&ok=1,ok由1变到0netk<θk,netk-θk<0-(netk-θk)Δok<0故ΔΕ<02023/4/17303当ANk的状态从ok变成ok′2、ANk不是输入神
经元kkkkkkhkj&1jkjjkhkj&1jjkkjhkj&1jjjn1jjjhki&1ihkj&1jjiijooow21oow21oow21ooxoow21E+−−−−+−−=======kkhkjjjkk
jhkjjjjnjjjhkiihkjjjiijooowooxoow+−−+−−======&1&11&1&1212023/4/17304当ANk的状态从ok变成ok′kkkkkkh1jj
kjkkkhkj&1jjkjkkkhkj&1jjkkkjo)net()oo](ow[)oo](ow[)oo(]o)oo(w[EEE−−=−−−=−−−=−+−−=−====无论ANk的状态是如何变化的,总有ΔΕ≤02023/4/17305
7.3统计Hopfield网与Boltzmann机•统计Hopfield网–在网络运行中,神经元状态与“人工温度”确定的概率相关–网络运行模拟金属退火过程)exp(11Tnetpiii−−+=pi:ANi的状态取1的
概率neti:ANi所获网络输入;θi:ANi的阈值;T:系统的人工温度。2023/4/17306算法7-1统计Hopfield网运行算法1取一个很大的值作为人工温度T的初值;2对网络中每一个神经元ANi,2.1按照相
应式子计算相应的概率pi;2.2按照均匀分布,在[0,1]中取一个随机数r;2.3如果pi>r则使ANi的状态为1,否则使ANi的状态为0;3逐渐降低温度T,如果温度足够低,则算法结束。否则,重复22023/4/17307Boltzmann机的训练•Boltzmann机是多级循环网络,是H
opfield网的一种扩展。•神经元ANi实际输出状态oi=1的概率为:)exp(11Tnetpiii−−+=•T趋近于0时,神经元的状态不再具有随机性,Boltzmann机退化成一般Hopfield网。2023/4/17308Boltzmann机的训练•神经元ANi在运行中状态发生
了变化=+−=hjjjjijiijooowE1−==−==jijijiiiowoEoEE)1()0(•Boltzmann机的能量函数(一致性函数)2023/4/17309Boltzmann机的训练•如果ΔΕi>0
,则应该选ANi输出为1,否则,应该选ANi输出为0。•ΔΕi的值越大,神经元ANi应该处于状态1的概率就应该越大。反之,ΔΕi的值越小,神经元ANi应该处于状态1的概率就应该越小。从而,oi=1的概率为:)exp(11TEpii−+=2023/4/17310Boltzmann机的训练•处于状态
a,b的概率Pa和Pb,对应于oi=1和oi=0,其它的神经元在a,b状态下不变•Pa=γpi•Pb=γ(1-pi))TEEexp(PPbaba−−=2023/4/17311Boltzmann机的训练•网络进行足够多次迭代后,处于某状态的概率与此状态下的能量和此时系统的温度有关。•由于高温时网
络的各个状态出现的概率基本相同,这就给它逃离局部极小点提供了机会。•当系统的温度较低时,如果Ea<Eb,则Pa>Pb:网络处于较低能量状态的概率较大2023/4/17312Boltzmann机的训练•1986年,Hinton和Sejnowski训练方法–自由概率Pij-:没有输入时
ANi和ANj同时处于激发状态的概率。–约束概率Pij+:加上输入后ANi和ANj同时处于激发状态的概率。–联接权修改量:Δwij=α(Pij+-Pij-)2023/4/17313算法7-2Boltzmann机训练算法1计算约束概率1.1对样本集中每个样本,执行如下操作:1.1.1将样本加在网络上
(输入向量及其对应的输出向量);1.1.2让网络寻找平衡;1.1.3记录下所有神经元的状态;1.2计算对所有的样本,ANi和ANj的状态同时为1的概率Pij+;2023/4/17314算法7-2Boltzmann机训练算法2计算
自由概率2.1从一个随机状态开始,不加输入、输出,让网络自由运行,并且在运行过程中多次纪录网络的状态;2.2对所有的ANi和ANj,计算它们的状态同时为1的概率Pij-;3对权矩阵进行调整Δwij=α(Pij+-Pij-)2023/4
/173157.4双联存储器的结构•智力链–从一件事想到另一件事,“唤回失去的记忆”。•自相联•异相联–双联存储器(BidirectionalAssociativeMemory—BAM)。•双联存储器具有一
定的推广能力–它对含有一定缺陷的输入向量,通过对信号的不断变换、修补,最后给出一个正确的输出。2023/4/17316基本的双联存储器结构W第1层输入向量第2层输出向量WTx1xnymy1……………2023/4/17317网络
运行Y=F(XW)X=F(YWT)X=(x1,x2,…,xn)Y=(y1,y2,…,ym)F为神经元的激活函数,一般可采用S形函数)netexp(11yii−+=2023/4/17318激活函数——阈值函数•随着λ的增加,该函数趋近于阈值为0的阈值函数
。1ifneti>0yi=0ifneti<0yiifneti=0λ2>λ1λ1λ21/22023/4/17319基本BAM的稳定•Kosko(1987):–基本的双联存储器无条件稳定——联接权矩阵是互为转置矩阵。•当输入向量的维数与输出向
量的维数相同时,W为方阵,此时如果联接矩阵W是对称的,则基本的双联存储器退化成一个Hopfield网2023/4/173207.5异相联存储•样本集:S={(X1,Y1),(X2,Y2)…,(Xs,Ys)}•权矩阵==s1i
iTiYXW•网络需要对输入向量进行循环处理的情况–当输入向量中含有“噪音”–样本集所含的信息超出网络的容量2023/4/17321容量•Kosko(1987),一般情况下,相联存储器的容量不会超过网络最小层神
经元的个数min•Haines和Hecht-Nielson(1988),“非均匀”网络的容量最多可以达到2min•R.J.McEliece、E.C.Posner、E.R.Rodemich–用户随机地选择L个状态–每个向量中有4+log2min个分
量为1,其它为-1–98%的向量成为稳定状态222)4min(logmin68.0+L2023/4/173227.6其它的双联存储器•具有竞争的双联存储器–可通过附加侧联接实现竞争。这些权构成另一个主对角线元素为正值,其它
元素为负值的权矩阵。–Cohen-Grossberg定理指出,如果权矩阵是对称的,则网络是稳定。–即使权矩阵不对称,网络通常也是稳定的。但是目前还不知道哪一类权矩阵会引起不稳定2023/4/173237.6其它的双联存储器•连续的双联存储器–Kosko(1987)证明,神经元的状态非同步变换,而且
这些神经元使用其他激励函数,仍然是稳定的,且有更强的表达能力•自适应双联存储器–最简单的方法是使用Hebb学习律进行训练。–Δwij=αoioj2023/4/173247.7Hopfield网解决TSP问题•1985年,J.J.Hopfield和D.W.Tank用循环网
求解TSP。试验表明,当城市的个数不超过30时,多可以给出最优解的近似解。而当城市的个数超过30时,最终的结果就不太理想了•n个城市间存在n!/(2n)条可能路径•设问题中含有n个城市,用n*n个神经元构成网络2023/4/173257.7Hopfield网解决TSP问
题•dxy——城市X与城市Y之间的距离;•yxi——城市X的第i个神经元的状态:1城市X在第i个被访问yxi=0城市X不在第i个被访问•wxi,yj——城市X的第i个神经元到城市Y的第j个神经元的连接权。2023/4/173267.7Hop
field网用于解决TSP问题例如:四个城市X、Y、Z、W城市名访问顺序标示1234X0100Y0001Z1000W00102023/4/173277.7Hopfield网用于解决TSP问题•联接矩阵wxi,yj=-Aδxy(1-δij)–Bδij
(1-δxy)–C–ζdxy(δji+1+δji-1)1如果i=jδij=0如果i≠j2023/4/17328网络的能量函数()−+++−++=xxzizizixixzxixiixzxzixixiijxjxiyyydDnyCyyByyA
E11222222023/4/17329网络的能量函数•仅当所有的城市最多只被访问一次时取得极小值0。xiijxjxiyyA2•A、B、C、D为惩罚因子第1项2023/4/17330网络的能量函数•仅当每次最多只访问一个城市时
取得极小值0。+ixzxzixiyyB2第2项2023/4/17331网络的能量函数•当且仅当所有的n个城市一共被访问n次时才取得最小值0。22−+xixinyC第3项2023/4/17332网络的能量函数•表示按照当前的访问路线的安排,所需要走的路径的总长度()
−+++xxzizizixixzyyydD112第4项2023/4/17333习题P1001、4、72023/4/17334第8章自适应共振理论•主要内容–ART模型的总体结构–各模块功能–比较层–与
识别层联接矩阵的初始化–识别过程与比较过程–查找的实现–ART的训练2023/4/17335第8章自适应共振理论•重点–ART模型的总体结构–各模块功能–识别过程与比较过程–查找的实现。•难点–比较层与识别层联接矩阵的初始化2023/4/17336第8章自适应共振理论8.1ART的结
构8.2ART的初始化8.2.1T的初始化8.2.2B的初始化8.2.3ρ的初始化8.3ART的实现识别、比较、查找、训练2023/4/17337第8章自适应共振理论环境变化网络的可塑性分析新添样本训练合并重新训练应用新环境下的应用样本集2
023/4/17338第8章自适应共振理论•Carpenter和Grossberg在1986年:4个样本组成样本集。这4个样本被周期性地提交给网络。网络是难以收敛•网络的可塑性需要的4项功能–样本的分类功能–分类的识别功
能–比较功能–类的建立功能•Grossberg等:自适应共振理论(AdaptiveResonanceTheory,简记为ART)•ART1、ART2。2023/4/173398.1ART的结构•稳定性与可塑性是不同的•保证可塑性的操作要求分析不匹配的现存模式不被修改新输入向量与现存模式相似:
修改相匹配的模式不相似:建立一个新模式2023/4/17340ART总体结构图X识别层C(B)P(T)RC复位G2G1识别控制比较控制比较层复位控制精度控制参数ρ2023/4/173418.1ART的结构X=(x1,x2,…,xn)R=(r1,r
2,…,rm)C=(c1,c2,…,cn)P=(p1,p2,…,pn)Ti=(ti1,ti2,…,tin)Bi=(b1i,b2i,…,bni)2023/4/173428.1ART的结构•tij表示识别层的第i个神经元到比较层的第j个神经元的
联接权•bij表示比较层的第i个神经元到识别层的第j个神经元的联接权•pi为比较层的第i个神经元的网络输入==mjjijitrp12023/4/17343以比较层和识别层为中心讨论5个功能模块rmr2r1T1p1c1TBB1x1G1p2
c2cnpn复位G2复位G2T2TmBmB2XnG1x2G1复位G2………识别层比较层2023/4/17344比较层输出信号控制G1=┐(r1∨r2∨…∨rm)∧(x1∨x2∨…∨xn)识别层输出信号控制G2=x
1∨x2∨…∨xn2023/4/17345比较层•执行二-三规则ci=1xi+pi+G1≥2ci=0xi+pi+G1>2kikikm1jjijittrtrp====C=XP=Tkci=xi∧pi•待命期•工
作周期2023/4/17346识别层•识别层实现竞争机制•Bk与C有最大的点积=n1iiikcb•X的“暂定”代表RNk所获得的网络输入为}mj1|cbmax{cbn1in1iiijiik===与RN1,RN2,…,RNm相对应向量B1,B
2,…,Bm代表不同分类2023/4/17347系统复位控制X与C的相似度s≥ρ,当前处于激发态的RNk所对应的Bk、Tk为X的类表示;s<ρ,此RNk所对应的Bk、Tk不能很好地代表X,需要重新寻找===n1iin1iixc
s2023/4/173488.2ART的初始化•T的初始化–矩阵T的所有元素全为1•B的初始化bij<L/(L-1+n)–n为输入向量的维数;L为一个大于1的常数,其值应该与输入向量的位数相关–Tk、Bk是RNk对应类的两种不同表示•ρ的初始化–ρ∈[0,1]2023/4/173498.3AR
T的实现•四个阶段:识别、比较、查找、训练•一、识别–X(非0向量)未被加在网上时•G2=0•R=(r1,r2,…,rm)=(0,0,…,0)–X(非0向量)被加在网络上时•G1=G2=1•R=0导致P=(p1,p2,
…,pm)=(0,0,…,0)2023/4/173508.3ART的实现•在识别层,每个RNk完成的操作–计算∑bikci–接收来自其它RN的抑制信号,并向其它的RN发出抑制信号–确定自己的输出状态–完成输出•RN之间的抑制连接与抑制信号•如果RNk输出1,则表明,在本轮识别中
,X暂时被认为是属于该RNk所对应的类2023/4/17351二、比较•X归于RNk,RNk的输出值1被分别以权重tkj传送到比较层•向量P就是向量Tk•T的初始化及训练保证了T的每个元素取值为0或者1•Bk与Tk根据RNk进行对应,
互为变换形式•如果对于所有的j,1≤j≤n,pj=xj,则表示X获得良好的匹配。如果存在j,使得pj≠xj,则表明X与相应的“类”的代表向量并不完全一致2023/4/17352二、比较•当系统复位控制模块计算X和C的相似度s•如
果s≥ρ,表明本轮所给出的类满足精度要求。查找成功,系统进入训练周期•如果s<ρ,表明本轮所给类不满足精度要求。–复位模块要求识别层复位,使所有RN输出0–系统回到开始处理X的初态,重新进行搜索–复位信号屏蔽本次被激发的RN,在下一
轮匹配中,该RN被排除在外,以便系统能够找到其它更恰当的RN2023/4/17353三、查找•如果s≥ρ,认为网络查找成功,此时分类完成,无需再查找•如果s<ρ,表明本轮实现的匹配不能满足要求,此时需要寻找新的匹配向量•查找过程2023/4/
17354三、查找1复位模块向识别层发出复位信号2所有RN被抑制:R=(r1,r2,…,rm)=(0,0,…,0),上轮被激发的RN被屏蔽3G1的值恢复为14X的值再次被从比较层送到识别层:C=X5不同的RN被激发,使得不同的P(Tk)被反馈到比较层6比较层进行相应的比较,并判定本次匹配
是否满足要求2023/4/17355三、查找7如果本次匹配不成功,则重复1∽6直到如下情况之一发生7.1本轮匹配成功。表明已找到一个与X匹配较好的模式,此时,网络进入训练期,对这个匹配的模式进行适当的修改,使它能更好地表示X7.2网络中现存的模式均
不匹配。因此,网络需要重新构造一个新模式表达此类2023/4/17356三、查找•网络用一个还未与任何类关联的RN来对应X所在的类–根据X修改与此RN对应的Tk、Bk–被网络选中的RNk对应的Tk=(1,1,…,1)–P=(1,1,…,1)被送入比较层。–C=X∧P=X
,被送入系统复位控制模块,s=1。而ρ≤1,所以,s≥ρ。匹配获得成功–网络进入训练期2023/4/17357三、查找•首先被选中的RN不一定对应X属于的类–受B取法的影响,有时候,获得最大激励值的RN对应的类不一定是X所属的类•例如:设n=5,三个输入向量为:X1=(1,0,0,0,0)X2
=(1,0,0,1,1)X3=(1,0,0,1,0)2023/4/17358三、查找•假定用初始化B,当X1、X2被输入时,RN1、RN2分别被激发•T1、T2、B1、B2分别取如下值–T1=(1,0,0
,0,0),B1=(1,0,0,0,0)–T2=(1,0,0,1,1),B2=(0.5,0,0,0.5,0.5)•当X3被输入系统时,RN1、RN2获得的激励值都是1–RN2被选中,则成功2023/4/17359三、查找•
RN1被选中,则出现问题–比较层输出向量C=(1,0,0,0,0),使得s=0.5,当ρ>0.5时,选择RN1就不能满足精度要求,此时网络就需要进入查找工作阶段1、RN1获胜2、C取值(1,0,0,0,0)3、5.05
151====iiiixcs2023/4/17360三、查找4、s<ρ5、RN1被屏蔽6、网络进入第二个查找周期,RN2获胜7、C取值(1,0,0,1,0)8、0.15151====iiiixcs2023/4/17361三、查找
9、满足精度要求,停止查找,进入训练期•当L取其它的值时,将会有不同的结果•当RN被系统认为是不能满足精度要求后,在继续查找过程中,一直被屏蔽•“查找周期”:网络的五个功能模块之间互相影响,加上信号的反馈,使得网络中的信号较为复杂2023/4/173
62四、训练•Tk、Bk的修改+−==n1jjiikc1LLcbtki=ci2023/4/17363四、训练•L是常数•T的元素只可能从1变成0,不可能从0变成1:用1初始化T的所有元素•如果RNk对应的模式代表类{X1,X2,…,Xd},则有Tk=X1∧X2∧…∧Xd•网络将向量共有
的东西作为它的类表示,这也符合一般意义下的“共同特征”的要求2023/4/17364四、训练+−==n1jjiikc1LLcb中含有重要因子=n1jjc2023/4/17365四、训练•设X1、X2分别使RN1、RN2激发•设T1=X1
、T2=X2•如果相应式子中没有该因子,则此时B1=T1、B2=T2•当X1再一次被输入时,RN1、RN2因为获得的网络输入相同而都有被选中的可能•如果RN2被选中,则会导致网络运行错误,使得原有的分类被严重破坏2023/4/17366四、训练•∑Cj可以看
成向量C的一个度量–越大,产生的权值就越小;–越小,产生的权值就越大。–当一个向量是另一个向量的子集时,能够获得较好的操作•例如X1=(1,0,0,0,0)X2=(1,0,0,1,1)X3=(1,0,0,1,0)2023/4/17367四、训练①
X1被再次输入,导致RN2被选中;②识别层将T2送入比较层:P=T2;③此时,C=P∧X1=X1;④复位控制模块根据C与X1计算出s=1;⑤因为s>ρ,所以对网络进行训练:T2=C。显然,其原值被破坏了。而当我们选择一个适当的L,同时在调整B时保留,这个问题就可以避免了。
2023/4/17368四、训练•网络的分类并不是一成不变的•继续使用上面例子中的输入向量,取L=6,初始化使B的所有元素均取值0.61、X1的输入导致RN1被激发;B1被训练后取值为(1,0,0,0,0)2、输
入X2时,RN1、RN2所获得的网络输入分别为1和1.8,这导致RN2被激发;B2被训练后取值为(0.6,0,0,0.6,0.6)2023/4/17369四、训练3、如果X1再次被输入,RN1、RN2所
获得的网络输入分别为1和0.6,从而正确的神经元被激发;如果X2再次被输入,RN1、RN2所获得的网络输入分别为1和1.8,从而也仍然有正确的神经元被激发4、当X3被输入时,RN1、RN2所获网络输入分
别为1和1.2,从而RN2被激发,此时,T2=(1,0,0,1,1)被送入比较层,使得C=T2∧X3=X3。从而导致s=1>ρ2023/4/17370四、训练5、网络进入训练:T2、B2被修改T2=(1,0,0,1,0)B2=
(6/7,0,0,6/7,0)6、当再次输入X2时,RN1、RN2所获得的网络输入分别为:1和12/7,这再次导致RN2被激发。但是,此时识别层送给比较层的T2=(1,0,0,1,0)。从而有s=2/3,如果系统的复位控制参数ρ>2/3,此时系统会重新为X3选择一个新的神经元2023
/4/17371四、训练•可以让ART在训练完成后,再投入运行2023/4/17372习题•P112•1、5感谢下载