2008年11月25日数据仓库:SQL Server数据仓库相关概念及构建流程
基本概念:
1、多维数据集:多维数据集是联机分析处理 (OLAP) 中的主要对象,是一项可对数据仓库中的数据进行快速访问的技术。多维数据集是一个数据集合,通常从数据仓库的子集构造,并组织和汇总成一个由一组维度和度量值定义的多维结构。
2、维度:是多维数据集的结构性特性。它们是事实数据表中用来描述数据的分类的有组织层次结构(级别)。这些分类和级别描述了一些相似的成员集合,用户将基于这些成员集合进行分析。
3、度量值:在多维数据集中,度量值是一组值,这些值基于多维数据集的事实数据表中的一列,而且通常为数字。此外,度量值是所分析的多维数据集的中心值。即,度量值是最终用户浏览多维数据集时重点查看...
[阅读全文] [PDF]
2008年11月25日数据仓库建模:对数据仓库进行数据建模
OLTP 与数据仓库--有何差异?
在日常生活中,我们要使用大量的应用程序来生成新的数据、变更数据、删除数据,当然在大多数的情况下我们还要查阅和分析数据。就来想象一个收发 email 的简单应用程序吧。我们已经存储了地址信息,可能还存储了一些文档。我们可以决定是否存储已经发送过的邮件,但是也可能隔一段时间后将其删除,或者删除已经发送过的所有邮件。那么我们该如何处理一段时间以前删除或者修改过的地址呢?我们再也不会看到它们了。
Email 程序大部分都属于不是很复杂的数据库,但是完全可以将其看作一个在单用户环境下的 OLTP(在线事务处理系统)简单示例。它使用了所有的所谓访问数据的操作 CRUD(...
[阅读全文] [PDF]
2008年11月25日数据仓库:天天向上之 数据仓库(Data War...
数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。 数据仓库是一个环境,而不是一件产品,提供用户用于决策支持的当前和历史数据,这些数据在传统的操作型数据库中很难或不能得到。数据仓库技术是为了有效的把操作形数据集成到统一的环境中以提供决策型数据访问,的各种技术和模块的总称。所做的一切都是为了让用户更快更方便查询所需要的信息,提供决策支持。
一、数据仓库拥有的四个特点
1、面向主题。操作型数...
[阅读全文] [PDF]
2008年9月26日数据仓库:数据仓库指南
数据仓库学习心得一.概念1.数据仓库:是指面向主题的,一致的,不同时间的,稳定的数据集合,用于支持经营管理中的决策支持过程。从广义上讲数据仓库是指存储大量历史数据的数据库。每一个记录代表特殊时间点上的一个数据。它是一种把收集的各种数据转变成有商业价值的信息技术,并把收集的信息体现在报告中。包括收集数据,过滤数据,存储数据,之后把数据应用于分析、报告等应用程序。2.数据仓库目标:确认数据结构,寻找趋势,辅助决策,为经营管理提供决策信息。3..DSS:决策支持过程。4.数据仓库组成部分:数据市场,关系型数据库,数据源,数据准备,种服务工具5.维度:6.多维:7...
[阅读全文] [PDF]
2008年9月26日数据仓库:数据仓库/BI是否等于报表系统?
关于这个问题的争论貌似由来已久,毕竟用过的人接触过的人越来越多了,每人都会有自己的见解。按我的理解就是:BI / DW 系统就是一个报表系统。绝对的是,毫无悬念的是(如果有人想否认的话请麻烦先给我举出一个 BI/DW 系统是不能提供任何报表和图表的)。只不过我们需要这个报表系统能够提供
1,足够多的数据供我查看2,足够快的速度不至于让我崩溃3,足够多的展现形式供我查看结果4,足够方便的功能能让我随意查看数据
为了让这个报表系统能够达到上面的要求我们就需要以下的设计
1,建立一个足够大的数据库,并且需要从已有的系统抽取数据2,这个数据库需要良好的结构...
[阅读全文] [PDF]
2008年9月26日数据仓库:从数据仓库到数据集市
BI领域始终存在着建设数据仓库还是建设数据集市、自上而下还是自下而上的争论,而在实际建设中,自然不会有人完全按照某种理念去做,比如在电信公司的数据集市建设中,地市公司的特殊情况与总部规范之间的博弈就成了一大难题。自上而下 VS自下而上刚进入BI领域的时候,感觉到处都在说、都在做“数据仓库”,而现在,很多地方又开始说建设“数据集市”了。只是,如何对数据仓库和数据集市两者做出一个明晰的区分,却始终是个问题。从字义上看, “仓库”可以想像成一所大房子,高高的货架,合理的出入路线,是一种集中存储货物的地方,一般顾客是不来参观访问的; 而说到“集市”,就容易联想到空旷的场地,...
[阅读全文] [PDF]
2008年9月26日数据仓库:企业级数据仓库取代数据集市
著名市场调研机构Gartner的分析师DonaldFeinberg表示,构建数据集市成本非常昂贵,如果你的公司有六个部门,每个部门都开发了自己的数据集市,那么你就必须为六个硬件系统和六个数据库软件许可买单,同时你还需要足够的人手来维护每一个数据集市。 当出现上面这种情况时,企业往往会发现到最后,每个数据集市里都复制了大量相同信息,数据的保存不再是一个单一的主拷贝,同时还会浪费掉大量的存储空间。 而在一个企业级数据仓库中,数据的质量比在上述数据集市中更高。数据仓库项目不需要采取“一次性全部导入”的方式,你可以从一个小的项目开始,围绕一个数据仓库慢慢进行设计...
[阅读全文] [PDF]
2008年9月26日数据仓库:数据仓库环境下进行测试时如何处理需求与质量的关系?
分析源文件
与其它项目一样,测试数据仓库部署时,通常都会有一份相关的说明文件。虽然这些文件对于创建基本的测试策略非常有用,但经常会缺少一些关于测试开发与执行的详细资料。有时会有一些其它文件解释技术上的细节问题,即从源到目标的转化(source-to-target mappings)说明文件。这些文件详细说明了数据的来源、如何对数据进行操作,以及存储到哪里。如果能拿到这些文件,关于系统设计的文件在设计测试策略时也会变得更加有用。
开发策略和测试计划
分析了各种各样的源文件后,就要开始创建测试策略。我发现从生命周期和质量的角度来看,增量测...
[阅读全文] [PDF]
2008年8月13日数据仓库:带你深入了解建立数据仓库的八条基本准则
数据仓库应用具有从多个分散的部门级系统中捕捉大量共享信息的能力。它们可以将机构的原始数据有效地转化为有用的知识信息,于是这些知识信息就可以被用来进行战略决策支持,从而提高企业效益。在一个先进的数据仓库应用的帮助下,企业决策者可以从质量、区域收入和产量等基本面上对企业性能进行跟踪,并基于这些可靠的信息采取快速、明智的行动。
本文将阐述建立数据仓库的八条规则,尤其是如何建立第一个数据仓库。实际上,对于如何建立一个成功的数据仓库,现实中不存在也根本不可能存在一个涵盖万千、放之四海而皆准的"宝书"。几乎可以肯定的是,在建立第一个数据仓库的时候,用户肯定会犯错误,这是不可避免的。本文的规则的意义仅仅...
[阅读全文] [PDF]
2008年8月13日数据仓库ods:带有ODS的体系结构中数据仓库的设计方法
在一般的数据仓库应用系统中,根据系统体系结构的不同,数据仓库设计的内容和范围不尽相同,并且设计方法也不尽相同,下面的两幅图示分别表示带有ODS的数据仓库应用系统体系结构和不带ODS的数据仓库应用系统体系结构。本文将说明两个体系结构上的差异以及这种差异造成的设计方法的不同,并且重点介绍带有ODS的体系结构中数据仓库的设计方法。
在数据仓库的设计指导思想中,数据仓库的概念定义是非常重要的,数据仓库概念规定了数据仓库所具有的几个基本特性,这些特性也正是对数据仓库设计结果进行检验的重要依据。
根据Bill.Inmon的定义,“数据仓库是面向主题的、集成的、稳定的、随时间变化的,主要用于决策支持...
[阅读全文] [PDF]
2008年8月6日数据仓库etl:深入探讨数据仓库建模与ETL的实践技巧
这篇论坛文章(赛迪网技术社区)深入探讨了搭建数据仓库过程中应当遵循的方法和原则,更多内容请参考下文:
一、数据仓库的架构
数据仓库(Data Warehouse \ DW)是为了便于多维分析和多角度展现而将数据按特定的模式进行存储所建立起来的关系型数据库,它的数据基于OLTP源系统。数据仓库中的数据是细节的、集成的、面向主题的,以OLAP系统的分析需求为目的。
数据仓库的架构模型包括了星型架构(图二:pic2.bmp)与雪花型架构(图三:pic3.bmp)两种模式。如图所示,星型架构的中间为事实表,四周为维度表,类似星星;而相比较而言,雪花型架构的中间为事实表,两边的维度表可以再有...
[阅读全文] [PDF]
2008年7月29日数据仓库:深入了解数据仓库优化中的星型转换
为了提高查询速度, 根据数据特征,每个字段会比较且建一个位图索引 ,但是查询语句并不能用到位图索引中, 所以应进行了星型转换。
在数据仓库中经常查询的SQL总带有下列特征:
◆几个表进行关联
◆只有一个数据量巨大的表, 称为事实表
◆其他的都是编码表, 称为维表
◆维表和事实表之间有主外键关系
假设有D1(key1),D2(key2),D3(key3),D4(key)四个小的维表和一个事实表F(key1,key2,key3,key4), 那么经常进行的查询将是:
SELECT D1.xxx, D2.xxx, ...
[阅读全文] [PDF]
2008年7月29日数据仓库:带你深入了解数据仓库优化中的星型转换
在数据仓库中经常查询的SQL总带有下列特征:
◆几个表进行关联
◆只有一个数据量巨大的表, 称为事实表
◆其他的都是编码表, 称为维表
◆维表和事实表之间有主外键关系
假设有D1(key1),D2(key2),D3(key3),D4(key)四个小的维表和一个事实表F(key1,key2,key3,key4), 那么经常进行的查询将是:
SELECT
D1.xxx, D2.xxx, D3.xxx, D4.xxx,
SUM(F.xxx), SUM(F.xxx)
FROM F, D1, D2, D3, D4
WHERE F.KEY1=D1.KEY1 AND ...
[阅读全文] [PDF]
2008年7月15日数据仓库:深入探讨数据仓库设计的步骤 禁忌和思路
高效实现数据仓库的七个步骤
数据仓库和我们常见的RDBMS系统有些亲缘关系,但它又有所不同。如果你没有实施过数据仓库,那么从设定目标到给出设计,从创建数据结构到编写数据分析程序,再到面对挑剔的用户的评估,整个过程都会带给你一种与以往的项目完全不同的体验。一句话,如果你试图以旧有的方式创建数据仓库,那你所面对的不是预算超支就是所建立的数据仓库无法良好运作。
在处理一个数据仓库项目时需要注意的问题很多,但同时也有很多有建设性的参考可以帮助你更顺利的完成任务。开放思维,不断尝试新的途径,对于找到一种可行的数据仓库实现方法来说也是必需的。
1. 配备一个全职的项目经理或你自己全面负责项目管...
[阅读全文] [PDF]
2008年7月1日数据仓库:带你深入了解用于数据仓库的IBM DB2产品
数据库应用程序有两种主要类型:在线事务处理(online transactional processing,OLTP)和数据仓库,数据仓库包括在线分析处理(online analytical processing,OLAP)和数据挖掘应用程序。DB2 9 同时适用于这两种应用程序。OLTP 系统与业务智能(Business Intelligence,BI)数据仓库系统的区别是什么?区别在于访问数据的典型查询。
OLTP 系统可能是一个 Web 订购系统,可以通过 Web 执行交易(比如购买产品)。这些应用程序的特征是进行细粒度的单行查询,可能更新少量的记录。与之相反,BI 类型的查询执...
[阅读全文] [PDF]
2008年6月27日数据仓库建模:快速了解数据仓库及数据建模的常用新术语
数据仓库引入了新的术语,扩展了数据建模的术语表。为使本文的阐述能够完备,下面我介绍一下最常用的术语。
◆数据仓库
数据仓库是一个支持管理决策的数据集合。数据是面向主题的、集成的、不易丢失的并且是时间变量。
数据仓库是所有操作环境和外部数据源的快照集合。它并不需要非常精确,因为它必须在特定的时间基础上从操作环境中提取出来。
◆数据集市
数据仓库只限于单个主题的区域,例如顾客、部门、地点等。数据集市在从数据仓库获取数据时可以依赖于数据仓库,或者当它们从操作系统中获取数据时就不依赖于数据仓库。
◆事实
事实是数据仓库中的信息单元,也是多维空间中...
[阅读全文] [PDF]
2008年6月27日数据仓库:讲解OLTP与数据仓库两者之间的不同之处
在日常生活中,我们要使用大量的应用程序来生成新的数据、变更数据、删除数据,当然在大多数的情况下我们还要查阅和分析数据。就来想象一个收发 email 的简单应用程序吧。我们已经存储了地址信息,可能还存储了一些文档。我们可以决定是否存储已经发送过的邮件,但是也可能隔一段时间后将其删除,或者删除已经发送过的所有邮件。那么我们该如何处理一段时间以前删除或者修改过的地址呢?我们再也不会看到它们了。
Email 程序大部分都属于不是很复杂的数据库,但是完全可以将其看作一个在单用户环境下的 OLTP(在线事务处理系统)简单示例。它使用了所有的所谓访问数据的操作 CRUD(创建、读取、更新、删除)。当...
[阅读全文] [PDF]
2008年6月26日sql数据仓库:SQL Server平台上数据仓库管理员的关键任
目前,我国的一些企业在数据仓库项目开发完成后并没有专门培训特定的数据仓库管理员,许多企业都是从开发团队里挑选一些人留下来执行维护任务,因为即使在通常情况下,经过简单的指导一般的技术人员也没有能力维护这个复杂的系统,更不用说出现突发事件应该怎么处理了。数据仓库的管理是不少企业数据仓库应用的软肋。要保证数据仓库系统的稳定性、可用性和高效性必须要有具备专业素养的数据仓库管理员来完成。
数据仓库管理员(Data Warehouse Administrator),如果取首英文字母简写为DWA,很多人会以为讲的是数据仓库架构师(Data Warehouse Architect),不过本文的主角是数据仓...
[阅读全文] [PDF]
2008年6月25日sql数据仓库:数据仓库基本报表制作过程中的SQL写法
这篇论坛文章(赛迪网技术社区)主要介绍了数据仓库基本报表制作过程中的SQL写法,详细内容请参考下文:
在数据仓库的基本报表制作过程中,通常会使用SQL作为数据源,可是普通的SQL实在不适合处理一些较为复杂的逻辑判断;一般而言,待查询的数据类型主要包括日期型、数字型、字符串这三类数据类型;在报表查询界面前段,实际上会对查询的数据作一些缺省处理,例如有些字段可输可不输,输入的字段需要按照输入的内容进行查询,而未输入的字段通常会选择忽略该条件的存在,如何判断该字段是否输入了呢,当然是针对这些未输入的字段提供一些缺省值了,例如某个数字类型的字段未输入,则赋一个缺省值-1,某个字符串字段未输入,则赋...
[阅读全文] [PDF]
2008年6月5日bi数据仓库:BI有没有前途 数据仓库之路如何继续下去
这篇论坛文章(赛迪网技术社区)根据笔者的个人经历论述了以下几个问题:
1.数据仓库是什么?2.BI是什么?3.自己的数据仓库之路如何继续下去?4.BI到底有没有前途?
更多内容请读者参考下文:
虽然从开始到现在已经过去两年了,但是我的疑问还在继续也将继续下去.......
曾经在国内某民族通信企业(通过CMM5级认证)工作过一段时间,因厌倦了客户无休止的需求导致程序无休止的修改,也厌倦了某不懂编码X士项目经理无休止的加班要求(一个月只休息了一天),便走上了BI这条不归路。
最初的BI知识,是由在公司接受了2周培训的哥们给我培训的,两个人两眼一抹黑便开始广东XX局点B...
[阅读全文] [PDF]