【文档说明】高级数据库技术-高级数据库技术10-DW+olap原理-课件.ppt,共(64)页,492.000 KB,由小橙橙上传
转载请保留链接:https://www.ichengzhen.cn/view-92360.html
以下为本文档部分文字说明:
数据仓库与olap分析高级数据库技术课程讲义郭玉彬数据仓库与OLAP分析数据仓库原理与实现技术ETL原理与实现技术数据仓库原理与实现技术--技术现状2007年olap技术发展:Microsoft收购专业开发企业分析软件的ProClarity
,还发布了PerformancePointServer2007Oracle发布了具有内嵌OLAP功能的数据库产品10g,以及在2007年收购了专业的BI公司Hyperion数据仓库原理与实现技术--技术现状数据仓库原理与实现技术--技术现状Oracle的数据仓库解决方案1.Ora
cleExpress:OracleExpressServer是一个MOLAP(多维OLAP)服务器OracleExpressWebAgent支持基于Web的动态多维数据展现OracleExpressObjects前端数据分析工具,提供图形化建模和假设分析
功能,支持可视化开发和事件驱动编程技术,提供兼容VisualBasic语法的语言,支持OCX和OLE;OracleExpressAnalyzer是通用的、面向最终用户的报告和分析工具(目前仅支持Windows平台)。2.OracleDiscoverer即席查询工具是专门为
最终用户设计的,分为最终用户版和管理员版。数据仓库原理与实现技术--技术现状Microsoft将OLAP功能集成到MicrosoftSQLServer7.0中,提供可扩充的基于COM的OLAP接口。它通过一系列服务程序支持数据仓库应用。Sybas
e---WarehouseStudio包括数据仓库的建模、数据抽取与转换、数据存储与管理、元数据管理以及可视化数据分析等工具。数据仓库原理与实现技术--技术现状IBM:基于可视数据仓库的商业智能(BI)解决方案,包括:VisualWarehouse(VW)、Essbase/DB2OL
APServer5.0、IBMDB2UDB,以及来自第三方的前端数据展现工具(如BO)和数据挖掘工具(如SAS)。BusinessObjects(BO)是集查询、报表和OLAP技术为一身的智能决策支持系统。
SAS公司90年代加入数据仓库市场的竞争,并提供了特点鲜明的数据仓库解决方案,包括30多个专用模块。数据仓库原理与实现技术--系统分层结构图数据层各种数据源计算层关系数据库XML文本文件透视表服务数据挖掘其它可视化控制层呈现层系统总体架构图
数据仓库原理与实现技术--模块划分元数据(MetaData)数据立方体预计算(PreComputation)数据立方体查询(QueryComputation)MDX解析(MDXParser)XMLA引擎(Engine)管理控
制台(ManagerConsole)XODBC数据访问(XODBC)ETL数据仓库基础知识--与数据库区别用户和系统的面向性:OLTP是面向顾客的,用于事务和查询处理OLAP是面向市场的,用于数据分析数据内容:OLTP系统管理当
前数据.OLAP系统管理大量历史数据,提供汇总和聚集机制.是多操作数据库系统中分离出来的用以提高两个系统的性能数据仓库原理与实现技术--元数据管理技术现状OMG组织的CWM标准(CommonWarehouseMetamo
del)一个特定于数据仓库领域的元数据模型集,它独立于具体数据仓库的实现,包含了各类有代表性的数据仓库元数据的有效描述。已被IBM、UNISYS、NCR、Hyperion、Oracle等多家公司支持。较成熟的
元数据管理解决方案Microsoft的MetaDataServiceSybase的WCC数据仓库原理与实现技术--元数据管理数据仓库原理与实现技术--元数据管理元数据业务流程图解析XML文件XMl文件XML解析器元数据对象容器创建元数据对象数
据库或文本加载成员信息数据仓库原理与实现技术--元数据管理数据仓库并没有严格的数学理论基础,也没有成熟的基本模式,具有强烈的工程性。从工作过程等方面来分析,其关键技术:数据的抽取存储与管理数据的表现数据仓库基础知识--所研究主要问题
数据的抽取--数据进入仓库的入口。通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入到数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等方面。防止”GarbageInGarbageOut”数据仓库基础知识--所研究主要问题数据的存储和
管理数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。数据仓库基础知识--所研究主要问题数据表现--数据仓库的门面主要集中在多维分析、数理统计和数据挖掘方面。
多维分析又是数据仓库的重要表现形式,近几年来由于互联网的发展,使得多维分析领域的工具和产品更加注重提供基于Web前端联机分析界面,而不仅仅是在网上发布数据。数据仓库基础知识--数据仓库系统的体系结构数据仓库基础知识--数据仓库系统的体系结构数据源--数据仓库系统的基础,是整个系统的数据源
泉。通常包括企业内部信息和外部信息。内部信息包括各种业务处理数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等等。数据仓库基础知识--数据仓库系统的体系结构数据存储与管理数据仓库的组织管理方式要决定采用什么产品和技术来建立数据仓库的核心,则需要
从数据仓库的技术特点着手分析。针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)。虚拟数据仓库—一种特殊存储的数据仓库数据仓库基础知识--数据仓库
系统的体系结构OLAP服务器对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。聚合数据存放于多维数据库中。数据仓库基础知识--数据仓库系统的体系结构前端工具包括各种报表工具、查询工具、数据分析工具、
数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对OLAP服务器报表工具、数据挖掘工具主要针对数据仓库。数据仓库基础知识--一个实例采购子系统:订单(订单号,供应商号,商品号,类别,单价。数量,总金额
,日期,…)供应商(供应商号,供应商名,地址,电话,…)销售子系统:客户(客户号,姓名,地址,电话,…)销售(客户号,商品号,数量,单价,日期,…)库存子系统:进库单(编号,商品号,数量,单价,日期,…)出库单(编号,商品号,数量,单价,日期,…)库存(商品号,库房号,类别,单价,库存数量
,总金额,日期,…)商品固有信息:商品号,类别,单价,颜色,…商品采购信息:商品号,类别,供应商号,供应日期,单价,数量,…商品销售信息:商品号,客户号,数量,单价,销售日期,…商品库存信息:商品号,库房号,库存数量,日期,…)商品主题域:采购子系统销售子系统库存子系统3、数据仓库中的
数据组织数据仓库中的数据分为四个级别:早期细节级,当前细节级,轻度综合级,高度综合级。1985~1998年销售明细表1998~2003年销售明细表1998~2003年每月销售表1998~2003年每季度销售表数据仓库与数据挖掘
数据仓库基础知识OLAP分析与多维数据模型数据仓库实施过程数据仓库与ETL原理多维数据模型与OLAP分析--多维数据模型数据仓库和OLAP工具基于多维数据模型,该模型将数据看作数据立方体形式数据立方体允许以多维对数据建模和观察.多维数据模型与OLAP分析--多维数据模
型基本概念维:人们观察数据的特定角度。维的层次:人们观察数据的特定角度可能存在细节程度不同的多个描述方面,我们称其为维的层次。多维分析的基本动作切片,旋转,上卷,下钻(OLAP中使用)Salesvolumeasafunctionofprodu
ct,month,andregionProductMonthDimensions:Product,Location,TimeHierarchicalsummarizationpathsIndustryR
egionYearCategoryCountryQuarterProductCityMonthWeekOfficeDayTotalannualsalesofTVinU.S.A.DateCountrysumsumTVVCRPC1Q
tr2Qtr3Qtr4QtrU.S.ACanadaMexicosum产品销售情况某年某月产品销售情况选定两个维:产品维和地区维时间维数据切片产品维地区维产品维地区维多维数据模型与OLAP分析--多维数据
模型基于RDBMS的数据仓库实现关系数据库将多维数据库中的多维结构分为两类:一类是事实表,用来存储事实的度量值以及各个维的码值;另一类是维表。数据仓库的设计模型有:星型模式,雪花模式,混合模式数据仓库的设计也可以理解为面向OLA
P的数据库设计。多维数据模型与OLAP分析--多维数据模型星型,雪花和事实星座模式是主要的存在形式星型模式包含一个大的包含大批数据的事实表和一系列维表.雪花模式是星型模式的变种,不同的是将某些维表规范化.
事实星座模式对应多个事实表共享维表.在星型模式中,主要数据存储在事实表中,没有冗余,并符合3NF或BCNF。维值信息存储在维表中。维表不需要规范化。主要原因是维表是静态的,不关心更新异常ProductsPidpnamecategorypri
ceLocationsLocidcitystatecountryPidtimeidlocidsalesTimeiddatemonthquarteryearholiday_flagTimesSales定单号销售员号客户号产品号日期标识地区名称数量总价定单号定货日期客户号
客户名称客户地址销售员号姓名城市产品号产品名称单价日期标识日月年地区名称省事实表星型模式定单号销售员号客户号产品号日期标识地区名称数量总价定单号定货日期客户号客户名称客户地址销售员号姓名城市产品号产品名称单价日期
标识日月年地区名称省事实表雪花模式产品号公司代码公司代码公司名称地址什么是OLAP?定义1:针对特定问题的联机数据访问和分析。通过对信息(维数据)多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管
理决策人员对数据进行深入观察。定义2:使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。(OLAP委员会的定义)OLAP的目标是满足决策支持或多
维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。多维数据模型与OLAP分析--OLAP分析多维数据模型与OLAP分析--OLAP分析OLAP服务器类型关系OLAP模型(ROLAP),使用关系或扩充关系DBMS存放并管理数据仓库多
维OLAP服务器(MOLAP),这些服务器通过基于数组的多维存储,支持数组的多维视图混合服务器OLAP(HOLAP),结合ROLAP和MOLAP技术,得宜于ROLAP的可伸缩性,和MOLAP的快速计算.OLAP多维数据分析1.切片和切块(Sliceand
Dice)在多维数据结构中,按二维进行切片,按三维进行切块,可得到所需要的数据。如在“城市、产品、时间”三维立方体中进行切块和切片,可得到各城市、各产品的销售情况。2.钻取(Drill)钻取包含向下钻取(Drill-down)和向上钻取(Drill-up)/上卷(Roll-up
)操作,钻取的深度与维所划分的层次相对应。3.旋转(Rotate)/转轴(Pivot)通过旋转可以得到不同视角的数据。OLAP的分析方法(一)切片(slicing)、切块(dicing)OLAP的分析方法(二)钻取(dri
ll-down)按时间维向下钻取按时间维向上钻取60OLAP的分析方法(三)旋转回答的问题:2001年第三季度,整个英格兰的总收入是多少?2000年英国每一类房产销售的总收入是多少?2001年租借房产业务中每个城市哪个地域最受欢迎?与过去的两年相比有何不同?每个分支机构本月的房产销售月收
入是多少,并与刚过去的12个月相比较。如果对于10万英镑以上的房产,法定价格上升3.5%而政府税收下降1.5%,对英国不同区域的销售会产生什么影响?在英国主要城市中,哪种类型的房产销售价格高于平均房产销售价格?这与人口统计数
据有何联系?数据仓库与数据挖掘数据仓库基础知识OLAP分析与多维数据模型数据仓库实施过程数据仓库与ETL原理数据仓库实施过程--设计步骤常采用原型法的思想来进行数据仓库的开发;但是数据仓库的设计开发又不同于一般意义上的原型法,数据仓库的设计是数据驱动的。数据仓
库设计步骤6.数据仓库运行与维护分析主题域,针对每一个选定的实施的主题域3.逻辑模型设计4.物理模型设计粒度层次划分数据分割策略记录系统定义关系模式定义确定存储结构确定索引结构确定存放位置确定存储分配1.概念模型设计界定系统边界确定主题域2.技术准备工作技术环境准备技术评估5.数据仓库生
成设计接口数据装入数据仓库设计步骤1.概念模型设计界定系统边界确定主要的主题域2.技术准备工作技术评估环境的准备3.逻辑模型设计确定要装载的主题确定粒度层次划分确定数据分割策略确定关系模式定义确定记录系统定义数据仓库设计步骤4.物理模
型设计确定数据的存储结构确定数据的索引策略确定数据的数据存放位置确定数据的存储分配5.数据仓库生成设计接口将数据装入6.数据仓库运行与维护开发决策支持系统DSS的应用进一步理解需求,调整
和完善数据仓库系统,维护数据仓库数据仓库的实施数据仓库建立的基本框架项目计划项目计划是指定义创建数据仓库的项目目标和确定项目范围,包括对项目计划的评估和流程的调整。确定范围的主要任务包括1、了解方向性分析处理需求2、确定信息需求3、确定数据覆盖范围。方向性需求包括:决
策类型、决策者感兴趣的问题(或对象)等。业务需求分析深入了解数据源分析数据仓库系统所包含的主题域及其相互之间的关系业务需求分析是数据仓库中一个很重要的阶段,好的业务需求分析会使项目成功的机率大大增加。数据线数据线的实施可以分为模型设计、物理设计、数据预处理三个
步骤,用以满足对数据的有效组织和管理。数据线-模型设计确定数据仓库系统将来的蓝图。模型设计主要包括四个基本步骤:确定合适的主题、划分粒度层次、设计维表和设计事实表。数据仓库的逻辑设计一般采用星型模型和雪花模型设计其数据模型。包括选择合适的主题,确定事实表、相关的维、属性和粒
度划分,设计正确的表结构和主键、外键关系等。数据线-模型设计ER图数据线-模型设计ER图中所示的数据模型中有四个相互关联的简单实体。如果数据库设计只需要考虑数据模型的话,可以推断所有的实体都是平等关系。换言
之,从数据模型的设计角度来看,所有的实体之间的关系是对等的。仅仅从数据模型的角度来着手设计数据仓库会产生一种“平面”效应。实际上,由于种种原因,数据仓库的实体绝不会是相互对等的。一些实体,要求有它们自己的特别处理。数据线-模型设计首先确立主题,订单是有大量数据的重要主题,那么“订单”位于星
型连接的中央。在其周围分别是“产品”、“客户”、“供应商”和“发货”实体。这些实体仅仅会产生不大的数据量。星型连接中央的“订单”被称作是“事实表”,而其周围的其他实体—“产品”、“客户”、“供应商”和“发货”则被称为“维表”。事实表包含了“订单”独有的标
识数据,也包含了订单本身的独有数据。事实表还包含了指向其周围的表—维表的外键。数据线-模型设计数据线-物理设计定义支持模型设计必需的物理结构。其过程包括以下三个方面:1)确定物理存储结构;2)确定索引策略;3)确定存储分配。数据
线-数据处理(1)数据预处理。(抽取、转换、加载)数据的质量问题很多工具可帮助用户完成数据抽取、转换和装载工作根据元数据库中的主题表定义、数据源定义、数据抽取规则定义对异地异构数据源进行清理、转换,对数据进行重
新组织和加工,装载到数据仓库的目标库中。在组织不同来源的数据过程中,先将数据转换成一种中间模式,再把它移至临时工作区。加工数据是保证目标数据库中数据的完整性、一致性。数据线-数据处理(2)数据维护数据仓库规模一般都很大,从建立之初就要保证它的可管理性,一个企业可能建立几个数据
仓库或数据集市,但他们可共用一个元数据库对其进行管理。1.从元数据库查询所需元数据2.进行数据仓库更新作业3.将更新情况记录于元数据库中4.当数据源的运行环境、结构及目标数据的维护计划发生变化时,修改元数据。元数据是数据仓
库的重要组成部分,元数据的质量决定整个数据仓库的质量。技术线技术选择和产品选择在数据仓库建立的过程中会遇到一些新的特定的问题,如管理大量数据的需求,如何对数据进行快速和方便的访问等。为解决这些问题人们采用了新的技术、新的产品。技术体系选择必须从为这些技术
建立全局的结构框架和视角出发,选择中需要同时考虑三个因素:商业需求、当前的技术环境、计划的策略技术方向。应用线应用设计设计标准的用户应用模板,包括:确定初始的模板集、设计模板的标准、设计详细模板、通过用户反馈进行改进。应用开发通过应用设计说明书,按照标准的软件开发流程,实现用
户应用模板的设计。一般过程是:选择实现的方法,然后进行模板的实现、测试和数据验证,应用模板的维护。系统运行维护数据仓库建成后就进入运行维护,在运行中要不断验证评价分析设计是否符合用户需求,产生出新的分析要求及时反馈回需求分析,进行系统设计的改进。运行维护分为目标
数据维护和元数据维护两方面。目标数据维护是根据元数据库所定义的更新频率、更新数据项等更新计划任务来刷新数据仓库,以反映数据源的变化,且对时间相关性进行处理。数据仓库实施小结数据仓库的实施包含数据、技术、应用三方面的要求。数据仓库系统的设计是一个动态反馈和循环的过程。数据仓库
的建立是运用一套有效的数据仓库建立方法不断反复循环的过程。