机械学习ー

PPT
  • 阅读 52 次
  • 下载 0 次
  • 页数 80 页
  • 大小 956.725 KB
  • 2023-07-04 上传
  • 收藏
  • 违规举报
  • © 版权认领
下载文档15.00 元 加入VIP免费下载
此文档由【精品优选】提供上传,收益归文档提供者,本网站只提供存储服务。若此文档侵犯了您的版权,欢迎进行违规举报版权认领
机械学习ー
可在后台配置第一页与第二页中间广告代码
机械学习ー
可在后台配置第二页与第三页中间广告代码
机械学习ー
可在后台配置第三页与第四页中间广告代码
机械学习ー
机械学习ー
还剩10页未读,继续阅读
【这是免费文档,您可以免费阅读】
/ 80
  • 收藏
  • 违规举报
  • © 版权认领
下载文档15.00 元 加入VIP免费下载
文本内容

【文档说明】机械学习ー.pptx,共(80)页,956.725 KB,由精品优选上传

转载请保留链接:https://www.ichengzhen.cn/view-260293.html

以下为本文档部分文字说明:

機械学習とデータマイニング岡田孝関西学院大学情報メディア教育センターTUT'2000/06/071はじめにデータマイニングとはデータベースからの知識発見知的データ解析紙オムツと缶ビール大容量データベースデータベースマーケティングビジネスインテリジェンス対象の多様化

Web上のテキストマルチメディアTUT'2000/06/072知識発見プロセス基幹DB抽出変換統合外部DBデータウェアハウスデータマイニングパターン評価可視化知識TUT'2000/06/073マイニング技法統計学パターン認識クラスタリングニューラルネット決定木Roughset相関ルールGra

phBasedInduction帰納論理プログラミング変数選択データの可視化TUT'2000/06/074Whatissupervisedlearning?InputinstancescontainsClassattribut

esExplanationattributes.Generaterulestodescribeclassdescriptionsinductively.IFconditionsTHENclassLearningfromexamples,Incorporat

ionofbackgroundknowledgecf.regression,discriminantanalysis,neuralnetwork,nearestneighborTUT'2000/06/075Typicalappl

icationsKnowledgeacquisitiontobeusedinplantoperatingexpertsystemActionpredictionofopponentteamsinsportsmatchDiagnosisfrommedicaltestsDisc

overyofactivemotifsinchemicalcompoundsfromstructureactivityrelationshipdatasetsTUT'2000/06/076ClassificationofProblemsTypeOutputUnderstand

ingExampleClassificationdefiniteanswerstoallquestionsUnnecessaryplantoperation,characterrecognitionGuessprobableanswerstosomequestionsUnnecessarysp

ortsactionprediction,stockpricepredictionUnderstandingprobabilitytoallquestionsNecessarymedicaldiagnosis,grammaracquisitionTUT'2000/06/077Str

eamsinlearningresearchI.ClassificationTUT'2000/06/078決定木の方法眼の色身長髪の色目的変数青低黒-青高黒-茶高黒-茶高ブロンド-茶低ブロンド-青低ブロンド+青高ブロンド+青高赤+ソースデータTUT'2000/06/079決定木高,赤

,青:+茶青ブロンド赤黒低,黒,青:-高,黒,青:-高,黒,茶:-低,ブロンド,青:+高,ブロンド,青:+高,ブロンド,茶:-低,ブロンド,茶:-髪の色目の色TUT'2000/06/0710平均情報量による変数選択平均情報量分類前)(log)()(log)(

),(22npnnpnnppnppnpI++−++−=bitnpI954.085log8583log83),(22=−−=TUT'2000/06/0711分類による平均情報量の利得身長による分類0.003bit髪の色による分類0.454bit眼の色による分類0.3

47bit0.003bit0.9510.954利得:0.951bit0.918830.97185平均:0.918bit32log3231log31低い:0.971bit53log5352log52高い

:2222=−=+=−−=−−TUT'2000/06/0712数値属性間結合ルールによる糖尿病診断木TUT'2000/06/0713ProgressinDecisionTreeVariablewithcontinuousvaluesEntropygainr

atio,GiniindexSamplingPruningBagging,BoostingUserinterfaceInteractiveexpansionofatreeVisualizationRulesTUT'2000/06

/071400.10.20.30.40.50.60.70.80.9100.040.080.120.160.20.240.280.320.360.40.440.48entropyginiindexVarianceGini-index=∑Pi・(1-Pi)=1

-∑Pi2Giniindexvs.EntropyTUT'2000/06/0715決定木の方法秋葉,アルモアリム,金田:例からの学習技術の応用に向けて,情報処理学会誌,Vol.39,No.2,pp.145-151;No.3,

pp.245-251(1998).Breiman,L.,Friedman,J.H.,Olshen,R.A.&Stone,C.J.:ClassificationandRegressionTrees,TheWadsworth&Brooks/Cole(1984).[CAR

T]Quinlan,J.R.:C4.5:ProgramsforMachineLearning,MorganKaufmann(1993).古川訳:AIによるデータ解析,トッパン(1995).TUT'2000/06/071

6StreamsinlearningresearchIII.RoughsetCharacteristicsNonexploratoryMethodologyfordecisiontableAnalysisofvariabled

ependenciesNPhardtoattributes&valuesReferencesPawlak,Z.:RoughSets:TheoreticalAspectsofReasoningaboutData,KluwerAcademicPublishers(1991).W.Ziarko:Re

viewofBasicsofRoughSetsintheContextofDataMining,Proc.FourthInternationalWorkshoponRoughSets,FuzzySets,andMachineDiscovery,pp.4

47-457,Tokyo(1996).Datalogic/R:ReductSystemsInc.TUT'2000/06/0717RoughsetとはPositiveregionBoundaryregionNegativeregionTUT'2000/06/0718Clas

sSHECT100100210211311100402111512101610100712211800211計算過程1:離散化・クラス分類ObjSHECT123…955595569557955812.018.219.0…17.518.019.615.7132.2148.0175.8…199.111

1.0186.6103.2171530151826…19172001422238327.032.311.2…4.017.129.941.17513060…14395152161Reduct1={Size,Height,Energy}Reduct2={Size,H

eight,Current}Core={Size,Height}TUT'2000/06/0719説明変数Pと目的変数QP={Size,Height,Energy,Current}Q={Temperature}Reduct1(P,Q)={Height,Energy}Re

duct2(P,Q)={Height,Current}Core(P,Q)={Height}HeightEnergyTemperature010021110211221ClassSHECT1001002102113

11100402111512101610100712211800211TUT'2000/06/0720計算過程2:DecisionmatrixによるRule導出j123iOBJe1e3e61e2(S,1)(E,2)(C,1)(H,0)(E,2)(C,1)(E,2

)(C,1)2e4(H,2)(C,1)(S,0)(H,2)(C,1)(S,0)(H,2)(C,1)3e5(S,1)(H,2)(H,2)(H,2)4e7(S,1)(H,2)(E,2)(C,1)(H,2)(E,2)(C,1)(H,2)(E,2)(C,1)5

e8(E,2)(C,1)(S,0)(H,0)(E,2)(C,1)(S,0)(E,2)(C,1)ClassSHECTe100100e210211B11=((S,1)∨(E,2)∨(C,1))∧((H,0)∨(E,2)∨(C,1))∧((E,2)∨(C,1))=(E,2)

∨(C,1)B12=((H,2)∨(C,1))∧((S,0)∨(H,2)∨(C,1))∧((S,0)∨(H,2)∨(C,1))=(H,2)∨(C,1)B13=((S,1)∨(H,2))∧((H,2))∧((H,2))=(H,2)B14=((

S,1)∨(H,2)∨(E,2)∨(C,1))∧((H,2)∨(E,2)∨(C,1))∧((H,2)∨(E,2)∨(C,1))=(H,2)∨(E,2)∨(C,1)B15=((E,2)∨(C,1))∧((S,0)∨(H,0)

∨(E,2)∨(C,1))∧((S,0)∨(E,2)∨(C,1))=(E,2)∨(C,1)(Energy=2)→(Temperature=1)(Current=1)→(Temperature=1)(Height=2)→(Temperature=1)TU

T'2000/06/0721VariablePrecisionRoughSetModelPositiveregionBoundaryregionNegativeregionTUT'2000/06/0722Vari

ableDependencyAnalysisNecessaryandSufficientVariableSetsReduct2CoreReduct3Reduct1Reduct5Reduct4TUT'2000/06/0723CarsexampleReduct

s(1)cyl,fuelsys,comp,power,weight(2)size,fuelsys,comp,power,weight(3)size,fuelsys,displace,weight(4)size,cyl,fuelsys,power,

weight(5)cyl,turbo,fuelsys,displace,comp,trans,weight(6)size,cyl,fuelsys,comp,weight(7)size,cyl,turbo,fuelsys,trans,

weightCore:{fuelsys,weight}NoSizeCylTurboFuelsysDisplaceCompPowerTransWeightMileage1compact6yesEFImediumhighhighautomediummedium2compact6no

EFImediummediumhighmanualmediummedium3compact4noEFImediumhighhighmanualmediummedium4compact6yesEFImediumh

ighhighmanuallighthigh5compact6noEFImediummediummediummanualmediummedium6compact6no2-BBLmediummediummediumautoheavylow7compact6noEFImediummediumhig

hmanualheavylow8subcompact4no2-BBLsmallhighlowmanuallighthigh9compact4no2-BBLsmallhighlowmanualmediummedium10compact4no2-BBLsmallh

ighmediumautomediummedium11subcompact4noEFIsmallhighlowmanuallighthigh12subcompact4noEFImediummediummediummanua

lmediumhigh13compact4no2-BBLmediummediummediummanualmediummedium14subcompact4yesEFIsmallhighhighmanualmediumhigh15subcompact4no2-BBLs

mallmediumlowmanualmediumhigh16compact4yesEFImediummediumhighmanualmediummedium17compact6noEFImediummediumhighautomedium

medium18compact4noEFImediummediumhighautomediummedium19subcompact4noEFIsmallhighmediummanualmediumhigh20compact4noEFI

smallhighmediummanualmediumhigh21compact4no2-BBLsmallhighmediummanualmediummediumZiarko:Thediscovery,analysis,andrepresentationofdatadependencies

indatabases,KnowledgeDiscoveryinDatabases,pp.195-209,Piatetsky-Shapiro&Frawleyed.AAAIPress(1991).TUT'2000/06/0724Reduct&CoreEffectstoSumofSqua

resSizecylturbofuelsysdisplacecomppowertransweightNet-power121086420VariablesTUT'2000/06/0725RoughSetMethodasaToolofDataAnalysisVerygoodr

ulesforunderstandingDespiteToomanyreductsNumberofreductschangeswithconfidencevalueinVPRSMDisregardoffrequenciesTUT'2000/06/0726Roughset

Pawlak,Z.:RoughSets:TheoreticalAspectsofReasoningaboutData,KluwerAcademicPublishers(1991).W.Ziarko:ReviewofBasicsofR

oughSetsintheContextofDataMining,Proc.FourthInternationalWorkshoponRoughSets,FuzzySets,andMachineDiscov

ery,pp.447-457,Tokyo(1996).Datalogic/R:ReductSystemsInc.方法論の特徴離散表現に対する方法論共起的な分布からの知識獲得が可能計算量ケース数にN,属性数と属性値数にexp(N)TUT'2000/06/0

727StreamsinlearningresearchII.CharacteristicRulesEvaluationbyUsefulnessPatternswithAccuracy&SupportStatisti

calestimationofgeneralityandaccuracy鈴木(1999):データベースからの特徴的ルール発見のための一般性と正確性の信頼性同時評価手法、人工知能学会誌、14,139-147.Exceptionsasinteres

tingness鈴木、志村(1997):情報理論的手法を用いたデータベースからの例外的知識の発見、人工知能学会誌、12,305-312.RatingusefulnessbyhumanestimationRulegenerationbyGenetic

AlgorithmTerano,T.andIshino,Y.(1996):Interactiveknowledgediscoveryfrommarketingquestionaireusingsimulatedbreedingandinductivelearningmethods,Proc.K

DD-96,279-282.MarketbasketanalysisTUT'2000/06/0728相関ルールの抽出Associationrulesminingソースデータ相関ルール番号購入アイテム101ジュース、コーラ、ビール102ジュ

ース、コーラ、ワイン103ジュース、ジン104コーラ、ビール105ジュース、コーラ、ビール、ワイン106ジン107ジュース、コーラ、ワイン、ジン108ワインサポート確信度ルール37.5%100.0%ジュース、ワイン→コーラ37.5%100.0%ビール→コーラ50.0%80.0

%ジュース→コーラ50.0%80.0%コーラ→ジュース37.5%75.0%ワイン→コーラ37.5%75.0%ジュース、コーラ→ワイン37.5%75.0%ワイン→ジュース、コーラ37.5%75.0%

ワイン→ジュース37.5%75.0%ジュース、コーラ→ワインTUT'2000/06/0729Apriorialgorithm1アイテム集合サポート2アイテム集合サポート3アイテム集合サポート{ジュ

ース}62.5%{ジュース、コーラ}50.0%{コーラ}62.5%{ジュース、ビール}25.0%{ジュース、コーラ、ワイン}37.5%{ビール}37.5%{ジュース、ワイン}37.5%{ワイン}50.0%{ジュース、ジ

ン}25.0%{ジュース、コーラ、ビール}候補から除外{ジン}37.5%{コーラ、ビール}37.5%{コーラ、ワイン}37.5%{コーラ、ビール、ワイン}候補から除外{コーラ、ジン}12.5%{ビール、ワイン}12.5%{ビール、ジン

}0.0%{ワイン、ジン}12.5%ラージアイテム集合スモールアイテム集合候補アイテム集合TUT'2000/06/0730時系列データの解析(1)名前Tid品目Yamada105ビールYamada210ブランディHirosawa010ジュース、コーラHirosawa012ビールHiro

sawa109ワイン、水、サイダーMita103ビール、ジン、サイダーYoshino002ビールYoshino106ワイン、サイダーYoshino205ブランディHaneda011ブランディTUT'2000/06/0731時系列データの解析(2)名前(Tid品目…)Yamada(105ビ

ール)(210ブランディ)Hirosawa(010ジュース、コーラ)(012ビール)(109ワイン、水、サイダー)Mita(103ビール、ジン、サイダー)Yoshino(002ビール)(106ワイン、サイダー)(205ブランディ)Haneda(011ブランディ)サポートパタ

ーン40.0%(ビール)→(ブランディ)40.0%(ビール)→(ワイン、サイダー)TUT'2000/06/0732分類階層構造の導入ワインジンコーラビールブランディジュース飲料清涼飲料弱い酒類強い酒類TUT'

2000/06/0733数値属性の取り扱い離散化Max-supportを越えるrangeまで統合複数のrangeFrequentitemset計算Rule導出RuleInterestにより刈り込みPartialcompleteness

概念Interval設定、健全性確保Srikant,R.&Agrawal,R.:MiningQuantitativeAssociationRulesinLargeRelationalTables,Proc.ACMSIGMOD,pp.1-12(1996).IDA

geMarried#Cars10023No120025Yes130029No040034Yes250038Yes2Interval20..2425..2930..3435..39ItemsetSupport{<Age:20..29>}3{<Age:

30..39>}2{<Married:Yes>}3{<Married:No>}2{<#Cars:0..1>}3{<Age:30..39>,<Married:Yes>}2RuleSupportConfidence<Age:30..39>and<Married:Yes>➔<#Cars:2

>40%100%<Age:20..29>➔<#Cars:0..1>60%66.6%PeopleFrequentitemset(part)TUT'2000/06/0734仮想トランザクション導入による要因分析沼尾、清水:流通業における

データマイニング,人工知能学会誌,Vol.12,No.4,pp.528-535(1997).顧客#年齢性別職業125男学生232女OL…………顧客#日付購買商品100/00/00S–男100/00/00A–20代197/01/30CD–X197/02/05CD–Y1……200/

00/00S–女200/00/00A–30代297/01/15Video–A297/03/03Video–B…TUT'2000/06/0735時系列記号化によるパターン認識教師付き帰納学習異常発生最大遅れ時間圧力温度データベース化時刻変数パタ

ーンT1温度上昇T2圧力上昇T3温度下降T4圧力下降T5温度上昇T6圧力上昇T7温度上昇T8温度下降T9圧力上昇………IF圧力上昇AND温度下降THEN異常発生:確率80%佐藤:データマイニング向けルールインダクション技術とその応用,情報処理学会関西支部平成9

年度第1回ソフトウェア研究会時系列データマイニング事例TUT'2000/06/0736グラフ構造への拡張:WWWアクセス履歴の分析BCADBCAHBICADEJKMLNFG猪口他:人工知能学会基礎論研究会SIG-F

AI-9801-10,pp.55-60(1998).TUT'2000/06/0737相関ルールの探索TUT'2000/06/07384213A:B:抽出パターンC:B7137Setp3:ペア選択GraphBasedInduction逐次ペア拡張アルゴリズム吉田、元田:逐次ペア拡張に基づく帰

納推論人工知能学会誌Vol.12,pp.58-67(1997).45216374268639入力Step1:入力の書き換えA5B67A68639A5B6A686B78339Step2:入力中のペアの数え上げ

TUT'2000/06/0739GBIのコマンド操作履歴解析への応用emacslprdvi2psxdvilatexpaper.pspaper.dvipaper.texcommandfile手法最頻直前線形識別1-NNCARTGBI精度22.6%20.7%22.6%20.8%34.6%

57.8%TUT'2000/06/0740GraphBasedInductionの特徴高速に構造化オブジェクトの解析可概念獲得,分類規則学習,推論高速化の何れにも適用可能Sequence(DNA,protein)への応用Negativeな条件表現に工夫が必要OrderedGraphに限定

規則・概念は連結グラフに限定複製障害により複雑なオブジェクトの取り扱い困難TUT'2000/06/0741帰納論理プログラミング最も簡単な実行例前提知識parent(1,2).parent(1,3)....正例他は負例grandparent(1,4).gran

dparent(1,5).…結果grandparent(X,Y):-parent(X,Z),parent(Z,Y).①②③④⑤⑥⑦TUT'2000/06/0742Versionspace中での仮説探索Grandparent(X,Y):-???被覆集合アルゴリズム新たなリテラルの

付加変数の定数化記述長最少原理で仮説選択FOIL:Quinlan(1990)entropyによる最良探索Progol:Muggleton(1995)逆伴意(Inverseentailment)による探索空間の縮小採用仮説棄却仮説正例負例TUT'2000/06

/0743Progolによる変異原性物質の識別230種のニトロ化合物:Amestestpositive138/negative92,Debnathetal:J.Med.Chem.34:786-797(1991).188種:重回帰分析実施Progol

:188(12hr)/42(6hr)に分割解析atm(compound,atom,element,type,charge).bond(compound,atom1,atom2,bondtype).9種のRule分類精度は同様指示変数の自動的発見Phenanthrene骨格、例外的acety

lene使用法の困難性、長い計算時間Kinget.al.:Relatingchemicalactivitytostructure:anexaminationofILPsuccess,NewGenerationComputing,Vol.13,pp.411-433(1995).C

H2H2CH2CH2COOONO2NO2NO2NO2NO2ClClClClNO2O2NCHNNNCH2NHOOABCDCDEFVWXUYZInputRuleTUT'2000/06/0744帰納論理プログラミングInductivelogicpr

ogramming人工知能学会誌小特集:帰納論理プログラミング,Vol.12,No.5,pp.654-688(1997).Lavrac&Dzeroski:InductiveLogicProgramming:Techniqu

esandApplications,Hertfordshire,EllisHorwood(1994).Dzeroski,S.:InductiveLogicProgrammingandKnowledgeDiscoveryinDatabases,InFayyadet.

al.AdvancesinKnowledgeDiscoveryandDataMining,pp.117-152,AAAIPress(1996).Quinlan,J.R.:LearningLogicalDefinitionsfromR

elations,MachineLearning,Vol.5,pp.239-266(1990).Muggleton,S.:InductiveLogicProgramming,NewGenerationComputing,Vol.8,pp.295-318(19

91);InverseEntailmentandProgol,ibid.Vol.13,pp.245-286(1995).King,R.D.et.al.:RelatingChemicalActivitytoStructure:anexaminationofILPsuccesse

s,ibid.Vol.13,pp.411-433(1995).http://gruffle.comlab.ox.ac.uk/oucl/groups/machlearn/TUT'2000/06/0745参考資料TUT'2000/06/0746赤目四十八滝

三重県TUT'2000/06/0747RuleInductionasDataAnalysisToolRulesaccurate?Yes.Softwareavailable?Yes.Computingfast?Yes.Easyunderstanding?Ye

s.Popular?No.TUT'2000/06/0748PossibleReasonsConservativeusersUnixenvironmentNofamiliarexamplesToomanymethodsToomanyrulesSe

lf-evidentrulesImpressions:adhocmethodsexploratoryTUT'2000/06/0749ResponseofUsersfromExpectedResultsRegressionbyafewvariablesTSS=ESS+RSS100%99%

1%Hypothesisconfirmed=>SatisfactoryRuleinductionAfewsimplerulesAverageaccuracy:99%Sumofcoverage:99%Self-evidentrules=>U

nsatisfactorywithDatascapewithoutDatascapeTUT'2000/06/0750WhatisDatascape?QuantificationProblemquantificationSo

lutionquantificationMultipledatadependenciesExplanationfrompluralviewpointsCorrelationamongexplanationvariablesC

oncise&levelwisedeepeningdescriptionsViewsofsolutionInspectionofindividualdatumSurroundingsofsolutionTUT'20

00/06/0751AnswerstoDatascapebyCascadeModelQuantificationbySSSS:sumofsquaresDatadependenciesDetectionoflocalinteractionsUnifiedmechanismforDis

criminationrulesCharacteristicrulesLevelwisecreationofrulesetsTUT'2000/06/0752Problemindecisiontree1Heuristicsearchisusedtogetthebe

sttree.ABCClassa1b1c1pa1b1c2na1b2c1na1b2c2na2b1c1pa2b1c2pa2b2c1na2b2c2pA4/4a1b1B3/1C1/11/00/10/22/0B1/3C1/10/11/

0a2b1b2b2c1c1c2c2C4/4c1a1B2/22/00/20/2A2/22/0c2b1b2a2TUT'2000/06/0753Problemindecisiontree2DistinctionbetweenMainandPre-cond

itionsC4/4c1a1B2/22/00/20/2A2/22/0c2b1b2a2IFc1andb1THENpositiveAccuracy:100%Cover:25%IFb1addedonc1THENpositiveAccuracy:50%→100%Cover:25%TUT

'2000/06/0754Problemindecisiontree3DiscriminationPowerofaRuleHowcanweorderrules?RulesetprunedAccuracy:85%Coverage:100%IF

a1andb1THENpositiveAccuracy:80%Cover:25%IFa1andb2THENnegativeAccuracy:100%Cover:25%IFa2andb1THENpositiveAccuracy:100

%Cover:15%IFa2andb2THENnegativeAccuracy:71%Cover:35%A11/9a1b1B4/6C4/11/03/10/53/0B7/3C2/51/31/2a2b1b2b2c1c1c2c2TUT'2000/06/0755SARDiscoveryontheMuta

genicityofAromaticNitroCompoundsStudiedbytheCascadeModelTakashiOkadaKwanseiGakuinUniversityokada@kwansei.ac.jpTUT'2000/06/0756ContentsPr

eviousworkonthisdatasetRegressionInductiveLogicProgrammingAimofthisworkCascademodelItemgenerationRelativeindexingofgraphverticesTypesofit

emexpressionsResultsInterpretationofrulesCharacteristicstructuralpatternsTUT'2000/06/0757Regressionanalysis230

aromaticandheteroaromaticnitrocompoundsDebnathetal:J.Med.Chem.34:786-797(1991).Divisionto2datasets188compoundssubjecttoregression42compou

ndswithdiversestructuresConclusionImportanceofhydrophobicity(logP)Electron-attractingelementconjugatingwithn

itrogroupenhancemutagenisityCompoundswith3ormorefusedrings(I1=1)aremuchmoremutagenicLessactiveaceanthrylene

s(Ia=1)15.489.288.138.1)110log(90.2log65.0log1log−−+−+−=aLUMOPIIPActivityCH2H2CH2CH2COOONO2NO2NO2NO2NO2ClClClClNO2O2NCHNNNCH2NHOOABC

DTUT'2000/06/0758AnalysisbyProgol(InductiveLogicProgramming)Kingetal:Proc.Natl.Acad.Sci.USAVol.93,pp.438-4

42(1996).atm(compound,atom,element,type,charge).bond(compound,atom1,atom2,bondtype).Progolprocessing5rulesfrom188compounds(

12hrs.)1rulefrom42compounds(6hrs.)accuracycomparabletoregressionAutomaticdiscoveryofindicatorvariables3ormorefusedringsac

eanthrylenesOHWXUVYZ>0.01<0.005<-0.406=0.146TUT'2000/06/0759AimofThisWorkUniformtreatmentof230compoundsUsing2Dstructural

formulaeFeasibilitystudyofthecascademodeltolargescalestructuraldataminingLargetoxicologydatabaseHugeSARdatabasefromhighthroughpu

tscreeningTUT'2000/06/0760SchemeofAnalysisStructuralformulae(SDFfile)RelativeindexingofgraphverticesCompoundActivity

Ptrn-1Ptrn-2…Ptrn-99911.5YY…N23.2NY…NCascadeModelRulesInterpretationTUT'2000/06/0761Cascademodel1ItemsetLattice

itemsetasnodeitemsinclusionaslinkclassdistributionasnodeproperty[]4/4[a2b2]0/2[a2b1]2/0[a1b2]1/2[a1b1]1/0[b2]1/4[b1]3/0[a2]2/2[a1]2/2BAb1a1a2

a1,b1:pa2,b1:pa2,b1:pb2a1,b2:na1,b2:na1,b2:pa2,b2:na2,b2:nTUT'2000/06/0762Cascademodel2[a2][a1][a1b2][b2][][a2b2][a1b1][b1][

a2b1]Questions•Potentialdefinition•Powerdefinition•Cascadeconstruction•SelectionofwaterfallsNodesasLakeswithPotentialLinksasWaterfallswithPowerHigh

PowerWaterfallsasRulesPotential:ClasspurityMixedPureTUT'2000/06/0763SumofSquaresDecompositionforCategoricalDataU

singSSDefinitionbyGiniTSSWSS(1)WSS(2)BSS(1)BSS(2)TSS=WSS(1)+BSS(1)+WSS(2)+BSS(2)()()−=−=221212gggpnWSSp

nTSS()()()−=22ppnBSSgggTUT'2000/06/0764WSSaspotential&BSSaspowergivenbyTSSDecomposition#positives/#negativesSamplevarianceSumofsquaresBSS(1):188

00/2000.16TSS:160760/400.0475WSS(1):3840/1600.16WSS(2):32BSS(2):7218+38+72+32=160TUT'2000/06/0765IF[B:y]addedon[A:y]THEN[D:y;E:

n]Cases:100→60[D:y]60%→93%,BSS=6.67[E:n]60%→90%,BSS=5.40BSSB9.60C0.00D6.67E5.40ynWSS2B604024.0.24C505025.0.25D604024.0.24E406

024.0.24A:yA:y,B:yALink,DistributionofVeiledItems&aRuleynWSS2B6000.00.000C303015.00.250D5643.73.062E6545.40.090Noneedtogenerate[A:y,B:y,D:y,E:n]T

UT'2000/06/0766ItemgenerationschemeItemsC3H=C3HC3H-C4HC4H-N3HC3H=C-C4HC3H-C-O2HC4H-C-N3HC3H=C-C-O2HC3H-C-C4HN3H-C-C-O

2HC3H=C-C-C4HC3H-C-C-N3HC4H-O2HC3H=C-C-C-N3HC4H-C-O2HH2CCHCHHOCH2NH2<1><2><3><4><5><6>Linearsubstructurepat

ternTwoterminalatompartCoordinationNo.and/orhydrogenConnectingpartalongtheshortestpathElementnameand/orbondtypeCoordinationNo.a

nd/orhydrogenNumberofbonds<1>=<2>-<3>-<5>-<6>TUT'2000/06/0767ItemTypesandResultsTerminalatompartConnectingpartelement&bondtypebondtype#bonds&bondtyp

esatterminalscoord.no.&hydrogen2044➔7710.7(7)1710➔8513.0(8)822➔7214.1(10)coord.no.1678➔469.8(7)1198➔5914.2(9)531➔4711.4(4)element1587➔518.5(7)10

62➔5714.2(10)412➔5111.6(5)#featuresgenerated➔#featuresanalyzedSSexplained(#rules)inthefirstrulesetusingminsup=0.1,thres=0.1,thr-BSS

=0.01TUT'2000/06/0768ComputationbyDISCASCategorizationto4activityclassesinactive,low:y<0.0,medium:0.0y<3.0,high:y3.0Parametersminsup=0.05,thres=0

.1,thr-BSS=0.01LatticegenerationPCwith266MHzPentiumII,256MB109sec.for6939nodes209rulesin10rulesets10rulesinthefirstrule

set#items0123#nodes19119104937TUT'2000/06/0769InterpretationofaRule(1)BasicContentsIF[C3HrCrC-CrCrCrC-N3:y]addedon[C3rCrCrCrC3:

n]THENActivity=low40.8%->14.0%;BSS:3.25;Cases:157->430.100.410.410.08==>0.000.140.580.28inactlowmedhighinactlowmedhighINHIITUT'2000/06/0

770InterpretationofaRule(2)anOptionalRHSTermIF[C3HrCrC-CrCrCrC-N3:y]IIaddedon[C3rCrCrCrC3:n]THENC3rCrCrC-N-O1=yIII68.2%->100.0

%;BSS:4.36;Cases:157->43NOIIINHIINOHIVNHNOTUT'2000/06/0771InterpretationofaRule(3)IntegrationofInformationIncorporationofotheroptionalRHSterm

swith100%confidenceConsultationtothesupportinginstancesindatabasePossiblesubstructurepatternsfordiscriminationSelectionbychemi

st’sintuitionHHN+O?OV43compounds114compoundsN+O?OVIHHN+O?ON+O?ON+O桇ON+O?ON+O?OHHHN+O?OTUT'2000/06/0772InterpretationofaRule(4)Absen

ceofaSubstructureIF[C3rCrCrC-N3:n]addedon[C3HrCrCrC-N-O1:y]THENActivity=low30.7%->56.4%;BSS:3.03;Cases:137->390.

130.310.380.18==>0.260.560.180.00CooccurrenceofAbsenceof[C3rCrCrC-N3]Presenceof[C3HrCrCrC-N3]Allsubstituentsatthe4-thpositionfromNarehyd

rogen.N+O桇OHHHN+O?OHHHVIIVIIITUT'2000/06/0773CharacteristicSubstructurePatterns(1)LowerActivityL1:0.130.310.380.18==>0.260.560.180.00Cases:13

7->39Allsubstitutentsatthe4-thpositionfromNO2groupmustbehydrogenlikeVII.L2:0.120.220.420.25==>0.140.710.140

.00Cases:69->14Allsubstituentsatthe5-thpositionfromtheNO2groupmustbehydrogenlikeIXasfaraspolycyclicaromaticnitro

compoundswithhydrogenatthe4-thpositionareconcernedN+O桇OHHHVIIN+O?OHHHIX•Specificeffectsbyhydrogenatoms?•Stoppingtheexpansionofp

olycyclicaromaticrings?TUT'2000/06/0774CharacteristicSubstructurePatterns(2)LowerActivityL3:0.110.200.450.23==>0.280.560.170.00Cases:115->18Polycycli

caromaticcompoundswithnitrogen.L4:0.110.320.400.17==>0.250.750.000.00Cases:128->12MonocyclicaromaticnitrocompoundsNXN+朞OOHHXI-5-4-3-2-101

23456-1012345678LogPTUT'2000/06/0775CharacteristicSubstructurePatterns(3)MediumtoHigherActivityM1:0.100.410.410.08==>0.000.140.580

.28Cases:157->434-nitrobiphenylVIamongaromaticcompoundswithoutfusedringsystems.M2:0.180.430.390.00==>0

.000.120.880.00Cases:56->17NO2substitutionatheteroaromaticringordoublebondinacenaphthylenes,aceanthrylenes.N+O?OVIN+O?OXIITUT'2

000/06/0776CharacteristicSubstructurePatterns(4)MediumtoHigherActivityM3:0.100.410.410.08==>0.000.190.550.26Cases:

157->47AlmostsameasM1,butincludesXIII.M4:0.100.410.410.08==>0.000.170.540.29Cases:157->41Abiphenylstructure.Onesideismonoc

yclicbenzenewithorthosubstituent.MostcompoundshaveoneoftheskeletonsXIV,XV,XVI.CON+O?OXIIIXIVXVIXXVTUT'2000/06/0777C

haracteristicSubstructurePatterns(5)HigherActivityH1:0.100.310.440.15==>0.090.090.480.34Cases:230->65Polycyclicaromaticnitrocompound

s.The5-thpositionfromNO2groupissubstitutedtoformalargerstructureasinXVII.H2:0.120.300.360.21==>0.000.000

.350.65Cases:56->17CompoundswiththeskeletonXVIIIarethesupportofthisrule.N+O?OXVIIN+O?OXVIII-4-3-2-10123456TUT'2000/06/0778ConcludingRemarks-Posi

tiveaspects-NewfeaturegenerationmethodforgraphsEfficientlatticeconstructionUsingthousandsoffeaturesEmployingahundredfeaturesDetectionofsubst

ructurepatternsComprehensiblebyexpertsTractablenumberofrulesTUT'2000/06/0779ConcludingRemarks-Problems-Missofgroupsconsistingofas

mallnumberofcompounds17compoundswithaNH2groupAllmediumorlowactivityInterpretationofrulesneedsmorehelpfromcomputerRemoveopti

onalRHStermswithredundantsubstructuresMaximalcommonsubgraphFuturedevelopmentIncorporationofregressionfunctionExtens

ionto3DstructuresTUT'2000/06/0780

精品优选
精品优选
该用户很懒,什么也没有留下。
  • 文档 34925
  • 被下载 0
  • 被收藏 0
相关资源
广告代码123
若发现您的权益受到侵害,请立即联系客服,我们会尽快为您处理。侵权客服QQ:395972555 (支持时间:9:00-21:00) 公众号
Powered by 太赞文库
×
确认删除?