基于神经网络的数据挖掘研究课件

PPT
  • 阅读 48 次
  • 下载 0 次
  • 页数 70 页
  • 大小 1.455 MB
  • 2023-04-14 上传
  • 收藏
  • 违规举报
  • © 版权认领
下载文档25.00 元 加入VIP免费下载
此文档由【小橙橙】提供上传,收益归文档提供者,本网站只提供存储服务。若此文档侵犯了您的版权,欢迎进行违规举报版权认领
基于神经网络的数据挖掘研究课件
可在后台配置第一页与第二页中间广告代码
基于神经网络的数据挖掘研究课件
可在后台配置第二页与第三页中间广告代码
基于神经网络的数据挖掘研究课件
可在后台配置第三页与第四页中间广告代码
基于神经网络的数据挖掘研究课件
基于神经网络的数据挖掘研究课件
还剩10页未读,继续阅读
【这是免费文档,您可以免费阅读】
/ 70
  • 收藏
  • 违规举报
  • © 版权认领
下载文档25.00 元 加入VIP免费下载
文本内容

【文档说明】基于神经网络的数据挖掘研究课件.ppt,共(70)页,1.455 MB,由小橙橙上传

转载请保留链接:https://www.ichengzhen.cn/view-243706.html

以下为本文档部分文字说明:

1神经网络基本概念2前馈神经网络3反馈网络模型Hopfield网络4数据挖掘技术5基于神经网络的数据挖掘研究基于神经网络的数据挖掘研究1神经网络基本概念1.1生物神经元来自其它神经元轴突的神经末梢细胞体轴突细胞核树突神经末梢突触细胞体、树突、轴突和突触。生物神经元的工作机制

兴奋和抑制两种状态。(1)兴奋状态传递兴奋信号(2)抑制状态传递抑制信息1.2人工神经元人工神经元:生物神经元的简化模拟。人工神经元间的互连:信息传递路径轴突-突触-树突的简化。连接的权值:两个互连的神

经元之间相互作用的强弱。x1x2xnw1w2wn┇∑fy┇图8.2人工神经元模型接收的信息(其它神经元的输出)互连强度作比较的阈值n维输入向量X输出输出函数神经元的动作:==niiixwnet1)(netfy=),(Rwxii输出函数f:也称作用函数,非线

性。01ynetθ(a)01ynet(b)阈值型S型f为阈值型函数时:−==niiixwy1sgn1+−=nw设,点积形式:)sgn(TXW=yT11],,,[+=nnwwwWT1]1,,,[nxx

=X式中,1.3神经网络的学习学习:从环境中获取知识并改进自身性能,主要指调节网络参数使网络达到某种度量,又称为网络的训练。实质:神经网络的最重要特征之一。神经网络学习方式---监督学习监督学习:对每一个输入训练样本,都有一个期望得到的输出值(也称教师信号

),将它和实际输出值进行比较,根据两者之间的差值不断调整网络的连接权值,直到差值减少到预定的要求。教师神经网络比较环境实际输出输入期望输出误差信号p(n)t(n)a(n)e(n)神经网络学习方式---无监督

、自组织学习无监督学习:网络的学习完全是一种自我调整的过程,不存在教师信号。输入模式进入网络后,网络按照预先设定的某种规则反复地自动调整网络结构和连接权值,使网络最终具有模式分类等功能。神经网络环境输入1.4神经网络的结构分类分层结构有明显层次,信息

流向由输入层到输出层。——前馈网络没有明显层次,任意两个神经元之间可达,具有输出单元到隐层单元或输入单元的反馈连接。——反馈网络相互连接结构2前馈神经网络2.1感知器感知器(Perceptron):F.Rosenblatt于1957年提出。x1x2xn…yMy1………感知器结构示

意图*双层(输入层、输出层);*两层单元之间为全互连;*连接权值可调。结构特点:*输出层神经元个数等于类别数。设输入模式向量,,共M类。T21],,,[mxxx=X输出层第j个神经元对应第j个模式类,θj:

第j个神经元的阈值;wij:输入模式第i个分量与输出层第j个神经元间的连接权。令。取jnjw)1(+−=T)1(21],,,[jnjjjwww+=WT21]1,,,,[nxxx=X)()(T11XWj

niiijjfxwfy==+=有)(1jniiijjxwfy−==输出为┇x2xiyix1jwijw2j┇w1j┇┇wnjyj输出单元对所有输入数值加权求和,经阈值型输出函数产生一组输出模式。M类问题判决规则(神经元的输出函数)为)(TXWjj

fy=−+=jjXX若,1若,1Mj1*正确判决的关键:输出层每个神经元必须有一组合适的权值。*感知器采用监督学习算法得到权值;*权值更新方法:δ学习规则。算法描述第一步:设置初始权值wij(1),w(n+1)j(1)为第j个神经元的阈值。第二步:输

入新的模式向量。第三步:计算神经元的实际输出。设第k次输入的模式向量为Xk,与第j个神经元相连的权向量为T)1(21],,,[)(jnjjjwwwk+=W第j个神经元的实际输出为])([)(TkjjkfkyXW=Mj1第四步:修正权值。kjjjjkydkkXWW)

]([)()1(−+=+dj:第j个神经元的期望输出。−+=jkjkjdXX,1,1Mj1第五步:转到第二步。当全部学习样本都能正确分类时,学习过程结束。经验证明,当η随k的增加而减小时,算法一定收敛。2.2BP网络BP网络:采用BP算法(Back-Pr

opagationTrainingAlgorithm)的多层感知器。误差反向传播算法认识最清楚、应用最广泛。性能优势:识别、分类1.多层感知器针对感知器学习算法的局限性:模式类必须线性可分。…yMy1…x1x2xn…………输入层第一隐层第二隐层输出层中间层为一层或

多层处理单元;前馈网络;结构:只允许一层连接权可调。学习过程分为两个阶段:第一阶段(正向传播过程):给出输入信息通过输入层经各隐层逐层处理并计算每个单元的实际输出值第二阶段(反向传播过程):若在输出层未能得到期望的输出值,

则逐层递归地计算实际输出与期望输出之间的差值(即误差),通过梯度下降法来修改权值,使得总误差函数达到最小。2.BP算法BP算法的学习过程设:某层任一神经元j的输入为netj,输出为yj;相邻低一层中任一神经元i的输出为yi。…yMy1…x1x2xn…………ji=iiijjywnet)(jjne

tfy=wij:神经元i与j之间的连接权;f(∙):神经元的输出函数。)(jjnetfy=0)(11hjjnete+−+=S型输出函数:θj:神经元阈值;h0:修改输出函数形状的参数。0.510yjnetjθj设:输出层中第k个神经元的实际输出为yk,输入为netk;与输

出层相邻的隐层中任一神经元j的输出为yj。=jjjkkywnet)(kknetfy=对输入模式Xp,若输出层中第k个神经元的期望输出为dpk,实际输出为ypk。输出层的输出方差:−=kpkpkpydE2)(21若输入N个

模式,网络的系统均方差为:−=pkpkpkydNE2)(21=ppEN1当输入Xp时,wjk的修正增量:jkpjkpwEw−=ΔjkkkpjkpwnetnetEwE−=−其中,=jjjkkywnet由式得

到:pjpjjjkjkjkkyywwwnet==令,可得kppknetE−=输出单元的误差:输出单元的修正增量:)1()(pkpkpkpkpkyyyd−−=pjpkjkpy=对于与输出层相邻的隐层中的神经元

j和该隐层前低一层中的神经元i:−=kjkpkpjpjpjwyy)1(pjpjijpyw=Δ输出层中神经元输出的误差反向传播到前面各层,对各层之间的权值进行修正。BP算法步骤:第一步:对权值和神经元阈值初始化:(0,1)上分布的随机数。第二步:输入样

本,指定输出层各神经元的期望输出值。−+=jjjdXX,1,1Mj,,2,1=第三步:依次计算每层神经元的实际输出,直到输出层。第四步:从输出层开始修正每个权值,直到第一隐层。ijijijytwtw+=+)()1(10若j是输出层神经元,则:))(1(jjjjj

ydyy−−=若j是隐层神经元,则:−=kjkkjjjwyy)1(第五步:转到第二步,循环至权值稳定为止。初始化加输入和期望输出计算隐层和输出层的输出迭代次数加1调节输出层和隐层的连接权值pjopjhjihkjkpjopkokjokjxtwt

wOtwtw+=++=+)()1()()1(改变训练样板训练样终止?迭代终止?BP算法的基本流程NoNoyyBP算法存在问题:*存在局部极小值问题;*算法收敛速度慢;*隐层单元数目的选取无一般指导原则;*新加入的学习样本影响已学完样本的学习结果。2.3RBF神经网络径向基函数(R

BF-RadialBasisFunction)神经网络是由J.Moody和C.Darken在80年代末提出的一种神经网络,它是具有单隐层的三层前馈网络。由于它模拟了人脑中局部调整、相互覆盖接收域(或称感受野-Rec

eptiveField)的神经网络结构,因此,RBF网络是一种局部逼近网络,它能够以任意精度逼近任意连续函数,特别适合于解决分类问题。RBF网络结构RBF网络的结构与多层前向网络类似,它是一种三层前向网络。第一层即输入层由信号

源节点组成;第二层为隐含层,隐单元数视所描述的问题的需要而定,隐单元的变换函数是RBF,它是对称中心径向对称且衰减的非线性函数;第三层为输出层,它对输入模式的作用做出响应。由于输入到输出的映射是非线性的,而隐含层空间到输出空间的映射是线性的,从而可以大大加快学习速度

并避免局部极小问题。RBF网络特点①前向网络;②RBF网络的作用函数为高斯函数,是局部的,BP网络的作用函数为S函数,是全局的;③如何确定RBF网络隐层节点的中心及基宽度参数是一个困难的问题;④RBF网络具有唯一最佳逼

近的特性,且无局部极小。图2RBF神经网络逼近在RBF网络结构中,为网络的输入向量。设RBF网络的径向基向量:其中hj为高斯基函数:式中,表示欧式范数网络的第j个结点的中心矢量为:其中,i=1,2,…n;j=1,2,…m。TnxxxX,....,21=T]h..,h

,h[m21jhH=mjbXjj,2,1),2C-exp(-h22j==Tn21j]cc,c[Cjijjjc=•设网络的基宽向量为:为节点的基宽度参数,且为大于零的数。网络的权向量为:k时刻网络的输出为:设理想输出为y(k)

,则性能指标函数为:T21],[Bmbbb=],[W21mjwwww=h+w+h+whw=whkymmm2211)(=2m(k))-(k)(21yykE=)(学习算法需要求解的参数–径向基函数的中心–方差–隐含层到输出层的权值RBF学习方法分类

(按RBF中心选取方法的不同分)–随机选取中心法–自组织选取中心法–有监督选取中心法–正交最小二乘法等自组织选取中心学习方法(1)第一步、自组织学习阶段无导师学习过程,求解隐含层基函数的中心与方差;(2)第二步、有导师学习阶

段求解隐含层到输出层之间的权值。学习算法具体步骤如下:1基于K-均值聚类方法求解基函数中心(1)网络初始化:随机选取个训练样本作为聚类中心(2)将输入的训练样本集合按最近邻规则分组:按照与中心之间的欧式距离将分配到输入样本的各个聚类

集合中。()hici,,2,1=pxicpx()Ppp,,2,1=h(3)重新调整聚类中心:计算各个聚类集合中训练样本的平均值,即新的聚类中心,如果新的聚类中心不再发生变化,则所得到的即为RBF神经网络最终的基函数中心,否则返回(2),进入下一轮的

中心求解。–2求解方差–该RBF神经网络的基函数为高斯函数,因此方差可由下式求解:–式中——所选取中心与其他中心之间的最大距离。hci2max=hi..2,1=maxc3计算隐含层和输出层之间的权值隐

含层至输出层之间神经元的连接权值可以用最小二乘法直接计算得到,计算公式如下:−=22maxexpipcxchhiPp..2,1;,,2,1==3反馈网络模型Hopfield网络寻找记忆:3.1Hopfield网络网络由初始状态向稳定状态演化

的过程。初始输出模式向量单层全互连、权值对称的神经网络。结构:Hopfield网络(HNN)离散型HNN(DHNN):M-P模型二值神经元连续型HNN(CHNN):神经元为连续时间输出。设是第s类的记

忆样本。为了存储M个记忆样本,神经元i和神经元j之间的权值wij为T21],,,[snsssxxx=X===jijixxwMssjsiij,0,1nji,,2,1,=若神经元i的输入为ui,输出为,则ix==njjijixwu1===

njjijiixwfufx1)(式中,−+=0,10,1)(iiiuuuf说明:定义网络的能量函数==−=ninjijijxxwE1121由某一神经元的状态的变化量引起的E变化量为ixΔinjjij

xxwE−==Δ)(21Δ10=iiw式中,,。jiijww=∆E<0,E有界,网络最终可达到一个不随时间变化的稳定状态。稳定性:如果网络从t=0的任一初始状态x(0)开始变化时,存在某一有限时刻t,此后网络状态不再变化,则称网络是稳定的。3.2算法步骤:第一步:给神经元的连接权

赋值,即存贮记忆样本。===jijixxwMssjsiij,0,1nji,,2,1,=第二步:用输入的未知类别的模式设置网络的初始状态。T21],,,[nxxx=Xiixx=)0(ni,,2,1=若表示神经元i在t时刻的输出状态,则初始值:)(t

xi第三步:迭代计算至算法收敛。)1(+txi=+=njjijitxwftx1)()1(ni,,2,1=第四步:转到第二步,输入新模式。神经元输出与未知模式匹配最好的记忆样本。4数据挖掘技术4.1数据挖掘的含义:数据挖掘,又称数

据库中的知识发现,就是从大量数据中获取有效、新颖、潜在有用、最终可理解的模式的非平凡过程。简单地说,数据挖掘就是从海量的数据中挖掘出可能有潜在价值的信息的技术。这些知识是是隐含的,事先未知的潜在的有用的信息。4.2数据挖掘的主要功能:①分类:按照对象的属性、特征,建立不同的组类来描述事物。

②聚类:识别出分析对象内在的规则,按照这些规则把对象分成若干类。数据挖掘的主要功能:③关联规则和序列模式:关联是某种事物发生时其他事物会发生的这样一种联系。④预测:把握分析对象发展的规律,对未来的趋势做出预见。⑤偏差的检测:对分析对象的少数的

、极端的特例的描述,揭示内在的原因。4.3数据挖掘的处理过程:数据挖掘的过程主要分为5个部分:①问题的定义②数据准备③数据整理④建立模型⑤评价和解释4.4现行的数据挖掘方法:统计方法、关联发现、聚类分析、分类与回归

和决策树、联机分析处理(OLAP)、查询工具、主管信息系统(EIS)等。这些方法帮助分析包含在数据仓库中的数据,它们的共同特点是问题驱动的。用户必须提出许多问题,才能得到包含在复杂关系中的结果,当提不出问题或提出的问题不正确时,将得不到正确的数据。5基于神经

网络的数据挖掘研究5.1基于神经网络的数据挖掘分三个阶段•选择与预处理数据•网络训练与剪纸•规则提取与评估(1)选择与预处理数据为构造网络准备数据,包括训练数据和测试数据。选择数据之前首先要观察和理解数据,选择一个或几个合适的样本数据集。结合挖

掘任务、数据的特点和采用的挖掘方法选择合适的编码(转化)方法(2)网络训练与剪纸这个阶段需要选择拟采用的网络模型,选择或设计一种网络训练算法。训练后的网络可能有些臃肿,剪枝就是在不影响网络准确性的前提下,将网络中冗余的连接和结点去掉。没有冗余结点和连接的网络产生的模式更精练和

更易于理解。(3)规则提取与评估经过学习和剪枝之后,网络中蕴含着学习到的规则(知识),但以这种形式存在规则不易理解。规则提取目的就是从网络中提取规则,并转换为某种易理解的形式表达出来,如决策树、模糊逻辑等方法。再利用测试样本对规则的可靠性进行测试和评估。5.2适合神经网络的数据

挖掘问题:分类是数据挖掘的一个主要问题。单层感知器的线性可分能力早已证明,但是对于非线性可分问题单层网络是无能为力的。可通过加入中间层,引入转换函数,将非分线性可分的问题映射后变为线性可分。一个多层的神经网络具有非常强的分类能力,并且分类误差率较

低。聚类是无监督学习过程,它依据数据间的相似度将数据集划分为不同的簇。目的是概观数据的全貌,了解数据点的分布情况以及可能存在的问题。时序预测是依据当前已知的数据来预测将来未知数据的状态。神经网络固有的输人输

出映射特性,特别适合用来建立预测模型。不管是线性问题还是非线性问题,只要输入输出间存在连续映射关系,就可以用一个多层神经网络以任意精度来逼近之。5.3神经网络实现的驱动方式驱动数据挖掘的神经网络实现实际上是

以神经网络为工具的联机分析处理技术。基于神经网络的数据挖掘的驱动方式可以分为以下五种。(1)自发知识驱动方式(2)数据驱动方式(3)查询驱动方式(4)交互式驱动方式(5)专家知识驱动方式(1)自发知识驱动方式:给定网络一个数

据挖掘规则(关联、特征、分类、聚类、偏差、判别、时序等规则)或规则组合模式,以在线方式连接知识库和数据库,当知识库中的规则满足时,驱动网络进行数据挖掘。(2)数据驱动方式:当数据满足挖掘规则时,就驱动网络开始挖掘。(3)查询驱动方式:给定网络查询对象及规则后,进行

自动挖掘。(4)交互式驱动方式:以面向对象的方式,进行数据挖掘。(5)专家知识驱动方式:在专家知识的引导下,进行数据挖掘实现。5.4一个简单的例子的实现挖掘目的:在一些大的商业公司中都有自己的呼叫中心,比如:移动的10

086,联通的10000....等等,而这些呼叫中心中除了再联系完他们之后让你选择:满意、不满意、灰常不满意来作为他们的服务等级标准外,在行业中还有一个指标来评比,这个指标被称作:挂断率,用来反映客户的失望度,就是在我们接进他们的客服中心的之间,如果选择人工服务,他让你等待...你

不爽,挂断了,这就产生了一个挂断事例,而通过挂断事例总和在所有呼入人数的所占比就是挂断率指标了。挂断率越高说明他们客服中心务质量越差。技术准备(1)微软案例数据仓库(AdventureWorksDW208R2),案例数据仓库中的呼叫中心的数据表,一张事实表FactCallCenter,下面步

骤中我们会详细介绍这张表里面的数据。(2)VS2008、SQLServer。操作步骤(1)数据准备:表中的数据明细:(2)新建挖掘结构结果分析输入属性很简单,我们可以选择上面我们选择的各种属性:可以选择值我们可以看到,这个输出也是同样的方式:*评分值的高低反

映的就是这个判断的可信度大小下面我们调整输入,直接来分析这个因素:为此我通过数据源视图浏览数据,通过透视表来验证一下我们的推断是否正确:谢谢!70以上有不当之处,请大家给与批评指正,谢谢大家!

小橙橙
小橙橙
文档分享,欢迎浏览!
  • 文档 25747
  • 被下载 7
  • 被收藏 0
相关资源
广告代码123
若发现您的权益受到侵害,请立即联系客服,我们会尽快为您处理。侵权客服QQ:395972555 (支持时间:9:00-21:00) 公众号
Powered by 太赞文库
×
确认删除?