【文档说明】新圆计算机系统公司-数据仓库课件.ppt,共(35)页,338.001 KB,由小橙橙上传
转载请保留链接:https://www.ichengzhen.cn/view-76876.html
以下为本文档部分文字说明:
新圆计算机系统公司---------------------数据仓库议程:数据仓库数据库的应用分类和数据仓库的由来数据仓库的特点数据仓库的建立服务器的整合与数据仓库数据挖掘与知识发现数据仓库与数据挖掘数据挖掘的任
务和工具国内外主要供应商与产品数据库的定义传统的数据库技术是以单一的数据资源为中心,同时进行从事务处理,批处理到决策分析的各类处理;特别是OLTP主要是为自动化,精简工作任务和高速数据采集服务的。它的运行是事务驱动,面向应用的,数据库的根本任务是完成数据操作,即及时安全地将当前事务所产生的记录
保存下来。数据仓库的产生随着计算机的全局应用和复杂分析的增加,人们已不满足与简单的数据操作,用于进行商务运转的大量数据可能是人们不大在意未加充分利用的东西。近而产生了使用现有的和自己长期积累生成的数据进行分析和推理,为决策提供依据的需求,从而导致了DSS和OLAP的产生。人们逐渐认识到计算机系统
中存在着两类不同的处理:操作型处理(事务处理):主要是对一个或一组记录的查询和修改,这时候人们关心的是响应时间数据的安全性和完整性。和分析型处理(信息型处理):用于管理人员的决策分析,如DDS(decisionsupportsystem)、EIS、多维分析等。数据仓库的产生
和定义随着时间的推移,人们开始对DB中的原始数据进行再加工,形成一个综合的、面向分析的环境以支持决策的产生;数据库由操作性环境发展成一种新的环境:t体系化环境,数据仓库则是体系化环境的核心。面向主题的、集
成的、稳定的、用以支持经营管理中的决策制定过程的不同时间的数据集合。用于OLTP的数据库无法满足分析的需求缺乏组织性:无统一的时间标准,抽取算法和抽取级别又不相同,参考的外部数据的不同效率低下:操作数据难以转化成有用的信息。1。各公司个阶段都要积累大量的数据,但
他们仅是一种处于原始状态的资源2为了提高性能,数据常被分散在各个子系统中,而各个子系统的应用又是千差万别、零散琐碎。3同时主题内容可能分散在多个应用中,同一应用在不同字段中可能存在着同名异义,异名同义、单位不同和字段不同等矛盾。用于OLTP的数据库无法满足分
析的需求其他困扰着基于传统数据库的DDS问题。如DDS分析需要较长时间,而OLTP则要求尽快作出响应;进行一次大规模的分析,对OLTP的影响是难以忍受的。DDS常常需通过一端历史时期的数据来进行分析趋势,而数据库一般只存储
短期数据,且各个领域的保存期限也千差万别,分析难以满足DDS的需要。数据DATA知识KNOWLEDGE决定DECISIONSPatternsTrendsFactsRelationsModelsAssociationsSequencesTargetMarketsFund
sallocationTradingoptionsWheretoadvertiseCatalogmailinglistSalesgeography财经的Financial经济的Economic政府Government
销售分数Point-of-Sale人口统计学Demographic生活方式Lifestyle痛苦:太多数据,无法作出正确判断!为什么要建立数据仓库面向应用ApplicationOriented有限的集成LimitedIntegratio
n经常的更新ConstantlyUpdated只有当前值CurrentValuesOnly支持日常的操作SupportsDay-to-DayOperations操作性数据OperationalData信息性数据InformationalData操作性数据和信息性数据是根本性的不同"Tr
ust"Accounts"Checking"Accounts"Loan"AccountsYearMonthDay财务记帐AccountHistory建立数据仓库从而获取正确信息分析发现Display,Analyze,
Discover管理和自动操作ManageandAutomate转换TransformTemplates分发Distribute仓库Store摘取Extract寻找并理解FindandUnderstandLogMetadata选
取数据....获取信息....作出决定设计数据库的建立--------步向成功之路议程:数据仓库数据库的应用分类和数据仓库的由来数据仓库的特点数据仓库的建立服务器的整合与数据仓库数据挖掘与知识发现数据仓库与数据挖掘数据挖掘的任务和工具国内外主要供应商与产品数据库的特征数据仓库是面向主题的。每
个主题基本对应于一个宏观的分析领域如政策、市场分析、价格趋势等数据仓库是集成的。在数据进入数据仓库之前,必然经过加工和集成,以统一原始数据中的所有矛盾,实现将原始数据从面向应用到面向主题的转变。数据仓库是稳定的。数据仓库反映的是历史数据的内容,而不是处理联机数据。古数据经集成进入数据仓库是极
少或不更新的。数据仓库是时变的。它存储有大量的历史数据、当前数据和综合数据等,它处于永远的发展变化中。引起变化的因素有:新主题的引入、历史数据的不断积累、细节数据的综合存储及无用数据的清除。议程:数据仓库数据库的应用分类和数据仓库的
由来数据仓库的特点数据仓库的建立服务器的整合与数据仓库数据挖掘与知识发现数据仓库与数据挖掘数据挖掘的任务和工具国内外主要供应商与产品数据仓库的建立和开发数据仓库并不等同于数据库,数据仓库也有其自身开发的特点。创建一个
数据仓库会有以下五方面的工作:1任务和环境的评估2需求的收集和分析3构造数据仓库4数据仓库技术的培训5回顾、总结及再发展1.任务和环境的评估数据仓库是建立在原有运行系统之上的。因此要结合用户的现状,来明确数据仓库的目标任务。除了业务现状外,
特别要搞清任务所面对的数据源所在系统和其中的数据的状况。通过对这些情况的评估,看建立数据仓库这个任务是否可行;所能建立的数据仓库是不是用户所期望的;在此有没有不可逾越的障碍。最好能确定评定将来数据仓库系统成功与否的基本原则。开展评估工作一定要有高层负责人参加,最好他
就是将来使用数据仓库部门的负责人。这样从他这里就可以了解到全部的业务工作状况。他也最清楚今后的工作目标及对任务的期望,以及和竞争对手比较的差距。在评估工作开展过程中,他应当及时的提出问题,并检查、回顾工作的进展。在他
的领导下要组成一个项目组,并有以下人员参加:项目总负责人,与数据仓库相关的所有业务单位的负责人,计算机软/硬件负责人,向数据仓库提供数据的数据库管理员以及网络方面的人员。项目组要进行项目定义,并首先按要求达到的目标初步确定数据仓库的主题。
进一步说明这个主题的层次结构,及所涉及的相关业务处理。最好还能设立几个可量化的工作指标。除了业务工作外,还要对相关的信息技术状况进行评估:数据源的数据库类型,工作平台,数据量,数据的质量等;将要建立数据仓库的环境状况,以及所利用的网络技术状况。全部评估工作
应有正规的文档记载,并交数据仓库负责人审定。数据仓库是为支持决策服务的。故首先要看决策者(亦即领导)的需求,即现在最重要的工作目标是什么;怎样衡量这个目标的达到与否;现在是怎样获得决策支持信息的;和竞争对手比差距是什么。领导的决策
总是由一批具体工作人员支持的,所以还应从他们这里收集具体的需求,并加以分析:对应前面所定的主题,现在利用什么信息或报表(最好有实例);这报表中还缺什么信息;这报表是如何制作出来的;有没有紧急、突发的决策信息要求,其内容是什么;还希望数据仓库为他们完成什么等。在此基础上确
认:当前共同的业务问题是什么;希望开发怎样的功能来解决这些问题;由此定义好业务处理的规则;初步估计功能的规模和数据量;与此同时还要定义、理清业务和编程所需的代码。基于上述业务需求和分析即可开始制定系统的逻辑模型。此外,还要对在实现这些业务需求时,对信息技术的需
求加以分析:每一个数据源的物理存储状况、运行平台、数据质量如何;确认硬件、网络和软件的限制条件;数据装载与更新的策略和问题;数据量和占用空间的估计;从信息技术看数据的质量有何问题等。最后,还有文档制作,其内容应包括:项目概述、差距分析、系统基本架构图示、逻辑模型
、物理模型、数据仓库初始装载和更新的策略、数据仓库的运行计划、决策信息展现的希望和需求、数据仓库建成的时限。2.需求的收集和分析3.构造数据仓库构造数据仓库包括了数据仓库的管理,数据仓库的组织和决策支持信息的展现三部分。数据仓库的管理通过建立以下诸项内容实现之:设置和编写取用数据的程序
;设置和编写数据转换程序;设置和编写数据更新程序;设置和编写运行的接口程序;建立这一阶段的所有管理用数据——Metadata;此阶段所有程序统一标准命名和建档。数据仓库的组织包括了:规划数据仓库的初始装载;在数据仓库中建立所需的索引;除了数据表外,建立数据视窗(View);进行数据仓库及工作
平台的安全检查;装入数据和应用功能;建立这一阶段的所有管理用数据——Metadata。4数据仓库技术的培训数据仓库是支持其使用者进行决策的,建成数据仓库后要认真进行最终用户的培训。首先要向用户介绍数据仓库的全
部情况,数据是向用户介绍的重点,数据内容,系统如何保障数据的质量、完整性和可靠性。假如数据仓库的管理员不是系统的开发者,那末该员亦属培训范围。培训内容是:数据仓库的逻辑和物理模型;从OLTP系统到数据仓库的数据流;全部的数据转换
操作;所有Metadata的所在和内容,管理员对Metadata要有相当的熟悉程度才能胜任工作;数据装载和更新的策略;所有安全性问题及其测度;所有程序文档资料的管理等。5.回顾、总结再发展在数据仓库开发过程中要不断总结回顾哪些地方可以做得更好;业务部门对开发的支持是否到
位;双方如何合作得更好。主题的范围选择是否恰当;有什么阶段成果;发布这些成果的反映如何;业务和开发部门分别有什么反映;公司层的领导是否看到了初步成果;、公司的其它部门是否可以利用数据仓库获得效益;有没有得到未曾期望过的效益。数据仓库的开发往往是
从一个简明的急需主题开始,从中积累经验,并由此也可能会激发用户的新需求,然后不断扩大数据仓库的内容和规模。议程:数据仓库数据库的应用分类和数据仓库的由来数据仓库的特点数据仓库的建立服务器的整合与数据仓库数据挖掘与知识发现数据仓库与
数据挖掘数据挖掘的任务和工具国内外主要供应商与产品数据挖掘和知识发现数据挖掘(DataMining),也可以称为数据库中的知识发现(KnowledgeDiscoveryinDatabase,KDD),是从大量数
据中提取出可信、新颖、有效并能被人理解的模式的高级处理过程。知识发现是一个多步骤的处理过程,问题定义了解相关领域的有关情况,熟悉背景知识,弄清用户要求。数据提取根据要求从数据库中提取相关的数据。数据预处理主要对前一阶段产生的数据进行再加工,检查数据的完整性及数据的一致性,对其中
的噪音数据进行处理,对丢失的数据进行填补。数据挖掘运用选定的知识发现算法,从数据中提取出用户所需要的知识,这些知识可以用一种特定的方式表示或使用一些常用的表示方式。知识评估将发现的知识以用户能了解的方式呈现,根据需要对知识发现过程中的某些处理阶段进
行优化,直到满足要求。议程:数据仓库数据库的应用分类和数据仓库的由来数据仓库的特点数据仓库的建立服务器的整合与数据仓库数据挖掘与知识发现数据仓库与数据挖掘数据挖掘的任务和工具国内外主要供应商与产品数据挖掘能做什么?-
数据总结其目的是对数据进行浓缩,给出它的紧凑描述。分类其目的是学会一个分类函数或分类模型,该模型能把数据库的数据项映射到给定类别中的某一个。聚类是把一组个体按照相似性归成若干类别,即"物以类聚"。----关联规则是形式如下的一种规则,"在购买面包和黄油
的顾客中,有90%的人同时也买了牛奶"(面包+黄油牛奶)。还有时间或序列上的规律。前途光明的数据挖掘技术KDD在研究和应用方面发展迅速,尤其是在商业和银行领域的应用比研究的发展速度还要快。用户主要集中在大
型银行、保险公司、电信公司和销售业。IBM和微软都成立了相应的研究中心进行这方面的工作,此外,一些公司的相关软件也开始在国内销售,如Platinum、BO以及IBM。数据挖掘的研究和应用在国内也受到了学术界和实业界越来越多
的重视。议程:数据仓库数据库的应用分类和数据仓库的由来数据仓库的特点数据仓库的建立服务器的整合与数据仓库数据挖掘与知识发现数据仓库与数据挖掘数据挖掘的任务和工具国内外主要供应商与产品数据挖掘工具数据挖掘工具主要有两类:特定领域的数据挖掘工具通用的数
据挖掘工具。特定领域的数据挖掘工具特定领域的数据挖掘工具针对某个特定领域的问题提供解决方案。在设计算法的时候,充分考虑到数据、需求的特殊性,并作了优化。对任何领域,都可以开发特定的数据挖掘工具。----特定领域的数据挖掘工具针对性比较强,只能用于一种应用;也正
因为针对性强,往往采用特殊的算法,可以处理特殊的数据,实现特殊的目的,发现的知识可靠度也比较高。通用的数据挖掘工具通用的数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法,处理常见的数据类型,一般提供六种模式。例如,IBM公司Almaden研究中心开发的QUEST系统,SGI公司开发的Mi
neSet系统,加拿大SimonFraser大学开发的DBMiner系统。通用的数据挖掘工具可以做多种模式的挖掘,挖掘什么、用什么来挖掘都由用户根据自己的应用来选择。下面简单介绍几种数据挖掘工具:1.QUESTQUEST是IBM公司Almaden研究中心
开发的一个多任务数据挖掘系统,目的是为新一代决策支持系统的应用开发提供高效的数据开采基本构件。系统具有如下特点:提供了专门在大型数据库上进行各种开采的功能:关联规则发现、序列模式发现、时间序列聚类、决策树分类、递增式主动开采
等。各种开采算法具有近似线性(O(n))计算复杂度,可适用于任意大小的数据库。算法具有找全性,即能将所有满足指定类型的模式全部寻找出来。为各种发现功能设计了相应的并行算法。2.MineSetMineSet是由SGI公司和美国Standf
ord大学联合开发的多任务数据挖掘系统。有如下特点:MineSet2.6中使用了6种可视化工具来表现数据和知识。对同一个挖掘结果可以用不同的可视化工具以各种形式表示,用户也可以按照个人的喜好调整最终效果,以便更好地理解。提供多种数据挖掘模式。包括分类器、回归模式、关联规则、
聚类归、判断列重要度。支持多种关系数据库。可以直接从Oracle、Informix、Sybase的表读取数据,也可以通过SQL命令执行查询。多种数据转换功能。操作简单。支持国际字符。可以直接发布到Web。数据挖掘
工具的选择评价一个数据挖掘工具,需要从以下几个方面来考虑:1.可产生的模式种类的多少2.解决复杂问题的能力3.易操作性4.数据存取能力5.与其他产品的接口议程:数据仓库数据库的应用分类和数据仓库的由来数据仓库的特点数据仓库的建
立服务器的整合与数据仓库数据挖掘与知识发现数据仓库与数据挖掘数据挖掘的任务和工具国内外主要供应商与产品Brio产品介绍cognus产品介绍点击进入BRIOOne介绍和BrioReports点击进入Cognus