数据挖掘-6大型数据库中的关联规则挖掘课件

PPT
  • 阅读 74 次
  • 下载 0 次
  • 页数 61 页
  • 大小 618.001 KB
  • 2022-12-05 上传
  • 收藏
  • 违规举报
  • © 版权认领
下载文档30.00 元 加入VIP免费下载
此文档由【小橙橙】提供上传,收益归文档提供者,本网站只提供存储服务。若此文档侵犯了您的版权,欢迎进行违规举报版权认领
数据挖掘-6大型数据库中的关联规则挖掘课件
可在后台配置第一页与第二页中间广告代码
数据挖掘-6大型数据库中的关联规则挖掘课件
可在后台配置第二页与第三页中间广告代码
数据挖掘-6大型数据库中的关联规则挖掘课件
可在后台配置第三页与第四页中间广告代码
数据挖掘-6大型数据库中的关联规则挖掘课件
数据挖掘-6大型数据库中的关联规则挖掘课件
还剩10页未读,继续阅读
【这是免费文档,您可以免费阅读】
/ 61
  • 收藏
  • 违规举报
  • © 版权认领
下载文档30.00 元 加入VIP免费下载
文本内容

【文档说明】数据挖掘-6大型数据库中的关联规则挖掘课件.ppt,共(61)页,618.001 KB,由小橙橙上传

转载请保留链接:https://www.ichengzhen.cn/view-92524.html

以下为本文档部分文字说明:

大型数据库中的关联规则挖掘什么是关联规则挖掘?关联规则挖掘:从事务数据库,关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性。应用:购物篮分析、分类设计、捆绑销售等

“尿布与啤酒”——典型关联分析案例采用关联模型比较典型的案例是“尿布与啤酒”的故事。在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,超市也因此发现了一个规律,在购买婴儿尿布的年轻父亲们中,有30%~40%的人同时要买一些啤酒。超市随后调整了货架的摆放,把尿布和啤酒放在一起,明

显增加了销售额。同样地,我们还可以根据关联规则在商品销售方面做各种促销活动。购物篮分析如果问题的全域是商店中所有商品的集合,则对每种商品都可以用一个布尔量来表示该商品是否被顾客购买,则每个购物篮都可以用一个布尔向量表示;而通过分析布

尔向量则可以得到商品被频繁关联或被同时购买的模式,这些模式就可以用关联规则表示(0001001100,这种方法丢失了什么信息?)关联规则的两个兴趣度度量支持度置信度%]60%,2[sup)"",()"",(confidenceportsoftwareXbuyscomputerXb

uys关联规则:基本概念给定:项的集合:I={i1,i2,...,in}任务相关数据D是数据库事务的集合,每个事务T则是项的集合,使得每个事务由事务标识符TID标识;A,B为两个项集,事务T包含A当

且仅当则关联规则是如下蕴涵式:其中并且,规则在事务集D中成立,并且具有支持度s和置信度cITTA],[csBAIBIA,BABA基本概念——示例项的集合I={A,B,C,D,E,F}每个事务T由事务标识符TID标识,它是项的

集合比如:TID(2000)={A,B,C}任务相关数据D是数据库事务的集合TID购买的item2000A,B,C1000A,C4000A,D5000B,E,F规则度量:支持度和置信度TID购买的item2000A,B,C1000A,C4000A,D5000B,E,FCustomer

buysdiaperCustomerbuysbothCustomerbuysbeer对所有满足最小支持度和置信度的关联规则支持度s是指事务集D中包含的百分比置信度c是指D中包含A的事务同时也包含B

的百分比假设最小支持度为50%,最小置信度为50%,则有如下关联规则AC(50%,66.6%)CA(50%,100%)BA)()(supBAPBAport)(/)()|()(APBAPABPBAc

onfidence大型数据库关联规则挖掘(1)基本概念k-项集:包含k个项的集合{牛奶,面包,黄油}是个3-项集项集的频率是指包含项集的事务数如果项集的频率大于(最小支持度×D中的事务总数),则称该项集为频繁项集大型数据库关联规则挖掘(2)

大型数据库中的关联规则挖掘包含两个过程:找出所有频繁项集大部分的计算都集中在这一步由频繁项集产生强关联规则即满足最小支持度和最小置信度的规则关联规则挖掘分类(1)关联规则有多种分类:根据规则中所处理的值类型布尔关联规则量化关联规则(规则描述的是量化的项

或属性间的关联性)根据规则中涉及的数据维单维关联规则(仅涉及buys这个维)多维关联规则)"",()"48...42",()"39...30",(computerXbuyskkXincomeXage)"",()"",(softwareXbuyscom

puterXbuyssoftwaremanagementfinancialcomputer__关联规则挖掘分类(2)根据规则集所涉及的抽象层单层关联规则多层关联规则(在不同的抽象层发现关联规则)根据关联挖掘的各种扩充挖掘最大的频繁模式(该模式

的任何真超模式都是非频繁的)挖掘频繁闭项集(一个项集c是频繁闭项集,如果不存在其真超集c’,使得每个包含c的事务也包含c’)(最大的频繁模式和频繁闭项集可以用来减少挖掘中产生的频繁项集))"_",()"39...30"

,(computerlaptopXbuysXage)"",()"39...30",(computerXbuysXage由事务数据库挖掘单维布尔关联规则最简单的关联规则挖掘,即单维、单层、布尔关联规则的挖掘。TransactionIDItemsB

ought2000A,B,C1000A,C4000A,D5000B,E,FFrequentItemsetSupport{A}75%{B}50%{C}50%{A,C}50%最小支持度50%最小置信度50%对规则AC,其支持度=50%置信度%6.66)(sup/)(su

p)(/)()|()(AportCAportAPCAPACPCAconfidence)()(supCAPCAportApriori算法(1)Apriori算法利用频繁项集性质的先验知识

(priorknowledge),通过逐层搜索的迭代方法,即将k-项集用于探察(k+1)-项集,来穷尽数据集中的所有频繁项集。先找到频繁1-项集集合L1,然后用L1找到频繁2-项集集合L2,接着用L2找L3,直到找不到频繁k-项集,找每个Lk需要一次数据库扫

描。Apriori算法(2)Apriori算法是挖掘布尔关联规则频繁项集的算法Apriori算法利用的是Apriori性质:频繁项集的所有非空子集也必须是频繁的。模式不可能比A更频繁地出现Apriori算法是反单调的,即一个集合如果不能通过测试,则该集合的所

有超集也不能通过相同的测试。Apriori性质通过减少搜索空间,来提高频繁项集逐层产生的效率BAApriori算法步骤Apriori算法由连接和剪枝两个步骤组成。连接:为了找Lk,通过Lk-1与自己连接产生候选

k-项集的集合,该候选k项集记为Ck。Lk-1中的两个元素L1和L2可以执行连接操作的条件是Ck是Lk的超集,即它的成员可能不是频繁的,但是所有频繁的k-项集都在Ck中(为什么?)。因此可以通过扫描数据库,通过计算每个k-项集的支持度来得到Lk。为了减少计算量

,可以使用Apriori性质,即如果一个k-项集的(k-1)-子集不在Lk-1中,则该候选不可能是频繁的,可以直接从Ck删除。])1[]1[(])2[]2[(...])2[]2[(])1[]1[(21212121klklklklllll21llApri

ori算法——示例DatabaseTDB1stscanC1L1L2C2C22ndscanC3L33rdscanTidItems10A,C,D20B,C,E30A,B,C,E40B,EItemsetsup{A}2{B}3{C}3{D}1{E}3Itemsetsup{A}2{B}

3{C}3{E}3Itemset{A,B}{A,C}{A,E}{B,C}{B,E}{C,E}Itemsetsup{A,B}1{A,C}2{A,E}1{B,C}2{B,E}3{C,E}2Itemsetsup{A,C}2{B,C}2{B,E}3{C,E

}2Itemset{B,C,E}Itemsetsup{B,C,E}2最小支持计数:2使用Apiori性质由L2产生C31.连接:C3=L2L2={{A,C},{B,C},{B,E}{C,E}}{{A,C},{B,C},{B,E}{C,E}}={{A,B,C},

{A,C,E},{B,C,E}}2.使用Apriori性质剪枝:频繁项集的所有子集必须是频繁的,对候选项C3,我们可以删除其子集为非频繁的选项:{A,B,C}的2项子集是{A,B},{A,C},{B,C},其中{A,B}不是L2的元素,所以删除这个选项;

{A,C,E}的2项子集是{A,C},{A,E},{C,E},其中{A,E}不是L2的元素,所以删除这个选项;{B,C,E}的2项子集是{B,C},{B,E},{C,E},它的所有2-项子集都是L2的元素,因此保留这个选项。3.这样,剪枝后得到C3={{B,C,E}}Apiori算

法——伪码由频繁项集产生关联规则同时满足最小支持度和最小置信度的才是强关联规则,从频繁项集产生的规则都满足支持度要求,而其置信度则可由一下公式计算:每个关联规则可由如下过程产生:对于每个频繁项集l,产生l的所有非空子集;对于每个非空子集s,如果则输出规则“”)(_s

up)(_sup)|()(AcountportBAcountportBAPBAconfidenceconfscountportlcountportmin_)(_sup)(_sup)(sls提高Apri

ori算法的有效性(1)Apriori算法主要的挑战要对数据进行多次扫描;会产生大量的候选项集;对候选项集的支持度计算非常繁琐解决思路减少对数据的扫描次数;缩小产生的候选项集;改进对候选项集的支持度计算方

法方法1:基于hash表的项集计数将每个项集通过相应的hash函数映射到hash表中的不同的桶中,这样可以通过将桶中的项集计数跟最小支持度计数相比较,先淘汰一部分项集。提高Apriori算法的有效性(2)方法3:划分挖掘频繁项集只需要两次数据库扫描D中的任何频繁项集必须作为局部

频繁项集至少出现在一个部分中。第一次扫描:将数据划分为多个部分并找到局部频繁项集第二次扫描:评估每个候选项集的实际支持度,以确定全集频繁项集方法2:事务压缩(压缩进一步迭代的事务数)不包含任何K-项集的事务不可能包含任何(K+1)-项集,这种事务在下一步的计算中可以加上标记或删除。

提高Apriori算法的有效性(3)方法4:选样(在给定数据的一个子集挖掘)基本思想:选择原始数据的一个样本,在这个样本上用Apriori算法挖掘频繁模式。通过牺牲精确度来减少算法开销,为了提高效率,样本大小应该以可以放在内存中为宜,可以适当降低最小支持度来减少遗漏的频繁模式可

以通过一次全集扫描来验证从样本中发现的模式可以通过第二次扫描来找到遗漏的模式方法5:动态项集计数在扫描的不同点添加候选项集,这样,如果一个候选项集已经满足最小支持度,则可以直接将它们添加到频繁项集,而不必在这次扫描的以后对比中继续计算。不产

生候选频繁项集的算法——FP树Apriori算法的主要开销:可能要产生大量的候选项集104个频繁1-项集会导致107个候选2-项集对长度为100的频繁模式,会产生2100=1030个候选重复扫描数据库,通过模式匹配检查一个很大的候选集合。不产生候选挖掘频繁项集的算法——FP-树频繁

集算法一种采用divideandconquer(分支策略)的方法在经过第一遍扫描之后,把数据库中的频繁项集压缩进一颗频繁模式树(FP-tree),同时依然保留其中的关联信息;将FP-tree树分化成一些条件库,每个库和一个长度为1的频繁项集相关,然后再对这些条件库分别进行挖

掘。从事务数据库构建一个FP树{}f:4c:1b:1p:1b:1c:3a:3b:1m:2p:2m:1HeaderTable(项头表)Itemfrequencyheadf4c4a3b3m3p3min_supp

ort=0.5TIDItemsbought(ordered)frequentitems100{f,a,c,d,g,i,m,p}{f,c,a,m,p}200{a,b,c,f,l,m,o}{f,c,a,b

,m}300{b,f,h,j,o,w}{f,b}400{b,c,k,s,p}{c,b,p}500{a,f,c,e,l,p,m,n}{f,c,a,m,p}1.扫描一次数据库,找出频繁项的集合(1-项集)2.将频繁项按降序排列3.再次扫描数据

库,构建FP树步骤:FP树的创建(第二次扫描数据库)1.创建树的根节点,用null标记;2.将每个事务中的项按递减支持度计数排列,并对每个事务创建一个分支;比如为第一个事务{f,c,a,m,p}构建一个分枝;3.当为一个事务考虑增加分枝时,沿共同前缀上的每个节点的

计数加1,为跟随前缀后的项创建节点并连接比如将第二个事务{f,c,a,b,m}加到树上时,将为f,c,a各增计数1,然后为{b,m}创建分枝4.创建一个项头表,以方便遍历,每个项通过一个节点链指向它在树中的出现。FP树结

构的好处完整性:不会打破任何事务数据中的长模式为频繁模式挖掘保留了完整的信息紧凑性减少了不相关的信息—非频繁的项被删除按频度递减排列——使得更频繁的项更容易在树结构中共享数据量比原数据库要小FP树挖掘FP树的挖掘步骤由长度为1的频繁模式(初始后缀模式)开始,构造它的条件

模式基(一个“子数据库”,由FP树中与后缀模式一起出现的前缀路径集组成)构造该初始后缀模式的条件FP树,并递归地在该树上实现挖掘。模式增长通过后缀模式与条件FP树产生的频繁模式连接实现。FP树挖掘——从FP树到条

件模式基从项头表开始挖掘,由频率低的节点开始沿循每个(频繁)项的链接来遍历FP树通过积累该项的前缀路径来形成一个条件模式基条件模式基itemcond.patternbasecf:3afc:3bfca:1,f:1,c:1mfca:2,fcab:1pfcam:2,c

b:1{}f:4c:1b:1p:1b:1c:3a:3b:1m:2p:2m:1项头表Itemfrequencyheadf4c4a3b3m3p3FP树挖掘——构建条件FP树对每个条件模式基为基中的每一项累积计数为模式基中的频繁项构建FP树m

-条件模式基:fca:2,fcab:1{}f:3c:3a:3m-条件FP-树涉及m的所有频繁模式m,fm,cm,am,fcm,fam,cam,fcam{}f:4c:1b:1p:1b:1c:3a:3b:1m

:2p:2m:1项头表Itemfrequencyheadf4c4a3b3m3p3由事务数据库挖掘多层关联规则由关系数据库和数据仓库挖掘多维关联规则由关联挖掘到相关分析基于约束的关联规则大型数据库中的关联规则挖掘多层关联规则(

1)数据项中经常会形成概念分层底层的数据项,其支持度往往也较低这意味着挖掘底层数据项之间的关联规则必须定义不同的支持度AllComputeraccessorysoftwarelaptopfinancialmousecolorprintercomputerdesktop

IBMedu.Microsoftb/wHPSonywristpadLogitechTIDItemsT1{IBMD/C,Sonyb/w}T2{Ms.edu.Sw.,Ms.fin.Sw.}T3{Logi.mouse,Ergowaywristpad}T4{I

BMD/C,Ms.Fin.Sw.}T5{IBMD/C}Ergoway多层关联规则(2)在适当的等级挖掘出来的数据项间的关联规则可能是非常有用的通常,事务数据库中的数据也是根据维和概念分层来进行储存的这为从事务数据

库中挖掘不同层次的关联规则提供了可能。在多个抽象层挖掘关联规则,并在不同的抽象层进行转化,是数据挖掘系统应该提供的能力挖掘多层关联规则的方法通常,多层关联规则的挖掘还是使用置信度-支持度框架,可以采用自顶向下策略由概念层1开始向下,到较低的更特定的概念层,对每个概

念层的频繁项计算累加计数每一层的关联规则挖掘可以使用Apriori等多种方法概念分层中,一个节点的支持度肯定不小于该节点的任何子节点的支持度先找高层的关联规则:computer->printer[20%,60%]再

找较低层的关联规则:laptop->colorprinter[10%,50%]交叉层关联规则跨越概念层边界的规则Computer=>b/wprinter使用较低层的最小支持度值多层关联——一致支持度一

致支持度:对所有层都使用一致的最小支持度优点:搜索时容易采用优化策略,即一个项如果不满足最小支持度,它的所有子项都可以不用搜索缺点:最小支持度值设置困难太高:将丢掉出现在较低抽象层中有意义的关联规则太低:会在较高层产生太多的无兴趣的

规则多层关联——递减支持度使用递减支持度,可以解决使用一致支持度时在最小支持度值上设定的困难递减支持度:在较低层使用递减的最小支持度每一层都有自己的一个独立的最小支持度抽象层越低,对应的最小支持度越小Computer[support=10%]Laptop[supp

ort=6%]Desktop[support=4%]min_sup=5%min_sup=5%min_sup=3%多层关联——搜索策略(1)具有递减支持度的多层关联规则的搜索策略逐层独立:完全的宽度搜索,没有频繁项集的背景知识用于剪枝层交叉单项过

滤:一个第i层的项被考察,当且仅当它在第(i-1)层的父节点是频繁的(P165,图6-14)(computer)(laptopcomputer,desktopcomputer)层交叉k项集过滤:一个第i层的k项集被考察,当且仅当它在第(i-1)层的对应父节

点k-项集是频繁的(P165,图6-15)(computer,printer)((laptopcomputer,colorprinter),(desktopcomputer,b/wprinter)…)多层关联——搜索策略(2)搜索策略比较逐层独立策略条件松,

可能导致底层考察大量非频繁项层交叉k项集过滤策略限制太强,仅允许考察频繁k-项集的子女层交叉单项过滤策略是上述两者的折中,但仍可能丢失低层频繁项(图6-14)受控的层交叉单项过滤策略层交叉单项过滤策略的改进版本设置一个层传递临界值

,用于向较低层传递相对频繁的项。即如果满足层传递临界值,则允许考察不满足最小支持度临界值的项的子女用户对进一步控制多概念层上的挖掘过程有了更多的灵活性,同时减少无意义关联的考察和产生Computer[support=10%]Laptop[support=6%]

Desktop[support=4%]min_sup=12%level_passage_support=8%min_sup=3%检查冗余的多层关联规则挖掘多层关联规则时,由于项间的“祖先”关系,有些发现的规则将是冗余的例如:desktopcomputer=>b/wprinter

[sup=8%,con=70%](1)IBMdesktopcomputer=>b/wprinter[sup=2%,con=72%](2)上例中,我们说第一个规则是第二个规则的“祖先”如果规则(2)中的项用它在概念分层中的“祖先”代替,能得到(1),而且(1)的支持度和置信

度都接近“期望”值,则(1)是冗余的。多维关联规则——概念单维关联规则:buys(X,“milk”)=buys(X,“bread”)多维关联规则:涉及两个或多个维或谓词的关联规则维间关联规则:不包含重复的谓词age(X,”19-25”)∧occupati

on(X,“student”)=>buys(X,“coke”)混合维关联规则:包含某些谓词的多次出现age(X,”19-25”)∧buys(X,“popcorn”)=>buys(X,“coke”)数据属性可以分为分类属性和量化属性分类属性具有有限个

不同值,值之间无序量化属性数值类型的值,并且值之间有一个隐含的序挖掘多维关联规则的技术在多维关联规则挖掘中,我们搜索的不是频繁项集,而是频繁谓词集。k-谓词集是包含k个合取谓词的集合。例如:{age,occupation,buys}是一个3-谓词集挖掘多维关联规则的

技术可以根据量化属性的处理分为三种基本方法:1.量化属性的静态离散化使用预定义的概念分层对量化属性进行静态地离散化2.量化关联规则根据数据的分布,将量化属性离散化到“箱”3.基于距离的关联规则考虑数据点之间的距

离,动态地离散化量化属性多维关联规则挖掘——使用量化属性的静态离散化量化属性使用预定义的概念分层,在挖掘前进行离散化数值属性的值用区间代替如果任务相关数据存在关系数据库中,则找出所有频繁的k-谓词集将需要k或k+1次表扫描数据立方体技术非常适合挖掘多维关联规则n-维方体的单元用于存放

对应n-谓词集的计数或支持度,0-D方体用于存放任务相关数据的事务总数如果包含感兴趣的维的数据立方体已经存在并物化,挖掘将会很快,同时可以利用Apriori性质:频繁谓词集的每个子集也必须是频繁的(income)(age)()(buys)(

age,income)(age,buys)(income,buys)(age,income,buys)挖掘量化关联规则(1)量化关联规则中,数值属性将根据某种挖掘标准,进行动态的离散化例如:最大化挖掘规则的置信度和紧凑性为了简化量化关

联规则挖掘的讨论,我们将聚焦于类似以下形式的2-维量化关联规则:Aquan1Aquan2Acat(两个量化属性和一个分类属性间的关联)例如:age(X,”30-39”)income(X,”42K-48K”)buys(X,”highresolutionTV”)

挖掘量化关联规则(2)找出这类2-维量化关联规则的方法:关联规则聚类系统(ARCS)一种源于图像处理的技术,该技术将量化属性对映射到满足给定分类属性条件的2-D栅格上,然后通过搜索栅格点的聚类而产生关联规则关联规则聚类系统(ARCS)(1)ARCS过程中的步骤包括1.分箱(根据不

同分箱方法创建一个2-D数组),本步骤的目的在于减少量化属性相对应的巨大的值个数,使得2-D栅格的大小可控等宽分箱等深分箱基于同质的分箱(每个箱中元组一致分布)2.找出频繁谓词集扫描分箱后形成的2-D数组,找出满足最小支持度和置信度的频繁谓词集关联规则聚类系统(ARCS)(2)3.关联

规则聚类将上一步得到的强关联规则映射到2-D栅格上,使用聚类算法,扫描栅格,搜索规则的矩形聚类)"__",()"40...31",()34,(TVresolutionhighXbuysKKXincome

Xage)"__",()"40...31",()35,(TVresolutionhighXbuysKKXincomeXage)"__",()"50...41",()34,(TVresolutionhighXbuysKKXincomeXage)"

__",()"50...41",()35,(TVresolutionhighXbuysKKXincomeXage)"__",()"50...31",()35...34,(TVresolutionhighXbuysKKXincomeXageARCS

的局限性所挖掘的关联规则左手边只能是量化属性规则的左手边只能有两个量化属性(2-D栅格的限制)一种不基于栅格的,可以发现更一般关联规则的技术,其中任意个数的量化属性和分类属性可以出现在规则的两端等深分箱动态划分根据部分完全性

的度量进行聚类挖掘基于距离的关联规则等宽划分将很近的值分开,并创建没有数据的区间等深划分将很远的值放在一组基于距离的关联规则挖掘考虑属性值的接近性,紧扣区间数据的语义,并允许值的类似基于距离的关联规则挖掘的两遍算法:1.使用聚类找出区间或

簇2.搜索频繁地一起出现的簇组,得到基于距离的关联规则Price($)Equi-width(width$10)Equi-depth(depth2)Distance-based7[0,10][7,20][7,7]20[11,20][22,50][20,22]22[21,30][51,53][50

,53]50[31,40]51[41,50]53[51,60]因为未考虑数据点之间或区间的相对距离,分箱方法不是总能紧扣区间数据的语义关联规则的兴趣度度量客观度量两个流行的度量指标支持度置信度主观度量最终,只有用户才能确定一个规则是否有趣的,而且这种

判断是主观的,因不同的用户而异;通常认为一个规则(模式)是有趣的,如果:它是出人意料的可行动的(用户可以使用该规则做某些事情)挖掘了关联规则后,哪些规则是用户感兴趣的?强关联规则是否就是有趣的?对强关联规则的批评(1)例1:(Aggarwal&Yu,PO

DS98)在5000个学生中3000个打篮球3750个喝麦片粥2000个学生既打篮球又喝麦片粥然而,打篮球=>喝麦片粥[40%,66.7%]是错误的,因为全部学生中喝麦片粥的比率是75%,比打篮

球学生的66.7%要高打篮球=>不喝麦片粥[20%,33.3%]这个规则远比上面那个要精确,尽管支持度和置信度都要低的多打篮球不打篮球合计喝麦片200017503750不喝麦片10002501250合

计300020005000对强关联规则的批评(2)例1:(书P172,表6-4)上述数据可以得出buys(X,“computergames”)=>buys(X,“videos”)[40%,60%]但其实全部人中购买录像带的人数是75%,比6

0%多;事实上录像带和游戏是负相关的。由此可见A=>B的置信度有欺骗性,它只是给出A,B条件概率的估计,而不度量A,B间蕴涵的实际强度。买游戏不买游戏合计买录像400035007500不买录像20005002500

合计6000400010000由关联分析到相关分析我们需要一种度量事件间的相关性或者是依赖性的指标当项集A的出现独立于项集B的出现时,P(A∪B)=P(A)P(B),即corrA,B=1,表明A与B无关,corrA,B>1表明A与B正相关,corrA,B<1表明A与B负

相关将相关性指标用于前面的例子,可以得出录像带和游戏间的相关性为:P({game,video})/(P({game})×P({video}))=0.4/(0.75×0.6)=0.89结论:录像带和游戏之间存在负相关)(/)|(P(A)P(B))(,BPAB

PBAPcorrBABA间的相关性:和基于约束的关联挖掘如何对海量数据进行交互性的、解释性的挖掘?充分地利用各种约束条件知识类型约束:分类,关联等数据约束维/层约束规则约束兴趣度约束规则约束指定要挖掘的规则形式,可以用元规则来表示,说

明规则的前件和后件中谓词的最大和最小个数,或属性、属性值和聚集之间的联系关联规则的元规则制导挖掘(1)元规则使得用户可以说明他们感兴趣的规则的语法形式例:在Alelectronics数据库中挖掘时使用一个元规则表达顾客的特点和他购买的商品之间的关联(具有

那两种特点的顾客会买Educationalsoftwrae?)P1(X,Y)^P2(X,W)=>buys(X,"Educationalsoftwrae")Y,W分别取赋给谓词变量P1,P2的属性值一般地,元规则形成一个用户希望探察的假定,而系统

则寻找与该规则匹配的规则,例如:"_",()"60...42",()"3930",(softwarelEducationaXbuysKKXincomeXage关联规则的元规则制导挖掘(2)假定我们需要挖掘的元规则形式为:P1^P2^…^Pl=>Q1^Q2^…^Qr设元规则

中谓词的个数为p=l+r,则找出符合该模式的关联规则需要以下两步骤:找出所有的频繁p-谓词集Lp计算Lp中的l-谓词子集的支持度,然后计算由Lp导出的规则的置信度数据立方体具有存放聚集维值的能力,适合

多维关联规则的挖掘,在n维数据立方体中(n>=p)挖掘上述规则可以用以下步骤:扫描p-D方体,将每个单元中的计数和最小支持度计数比较,得到Lp考察l-D方体,返回与原规则匹配的强关联规则用附加的规则约束制导的挖掘在数据挖掘中,与元规则一起使用的约束还有集合/子集联系、变量初始化和聚集

函数等。它们将使挖掘过程更加有效。mineassociationsaslives(C,_,"Vancouver")^sales+(C,?{I},{S})sales+(C,?{1},{T})fromsaleswhereS.year=1999andT.year=1999andI.category=J.

categorygroupbyC,I.categoryhavingsum(I.price)<=100andmin(l.price)>=500withsupportthreshold=1%withconfidencethreshold=50

%挖掘过程中使用的规则约束通常的数据挖掘中,知识类型和数据约束在挖掘前使用,其他约束在挖掘后用来过滤规则,但这使挖掘过程非常低效。什么类型的规则约束可以在挖掘过程中使用,以缩小规则挖掘的空间呢?对于频繁项集挖

掘,在挖掘过程中使用的约束包括以下五种类型:反单调的单调的简洁的可转变的不可转变的反单调的和单调的约束如果一个项集不满足该规则的约束,则它的任何一个超集都不可能满足该约束;具有这种性质的规则称为是反单调的

。如果一个项集满足该约束,则它的所有超集也满足该约束;具有这种性质的规则称为是单调的。简洁性约束一个约束是简洁的,如果我们可以列出并仅仅列出所有所有确保满足该约束的集合;利用简洁性约束,我们可以在计数前进行剪枝,从而避免

产生-测试方式的过大开销。可转变的和不可转变的约束有些约束不属于前面三类,但如果项集中的项以特定的次序排列,则对于频繁项集挖掘的全过程,约束可能成为单调的或者是反单调的。例:avg(l.price)

不可转变的约束是数据挖掘中较难处理的部分,但这种约束往往较少。

小橙橙
小橙橙
文档分享,欢迎浏览!
  • 文档 25747
  • 被下载 7
  • 被收藏 0
相关资源
广告代码123
若发现您的权益受到侵害,请立即联系客服,我们会尽快为您处理。侵权客服QQ:395972555 (支持时间:9:00-21:00) 公众号
Powered by 太赞文库
×
确认删除?