发生的变化(数据库的更新)装载到数据仓库中。
对于第一个选项很简单,翻账本谁不会阿?所以难度很小,但作为一个DSS分析员,放着现有的数据,你会愿意去分析十年前的数据么,不少企业发现,在很多环境下,使用旧的数据得不偿失。
对于第二个选项来说,因为只需要装载一次,所以做起来也不难。通常我们可以根据操作型环境写一个下载的顺序文件,使用这个顺序文件,可以在不破坏联机环境的前提下下载到数据仓库中。(似乎挺不错的)
第三个选项可就有点复杂了,因为,就再你装载数据的时候,数据库正发生着变化,要有效的捕捉到那些变化不是一件容易的事。所以,扫描已有的文件(或者表格)成了数据仓库体系结构设计者的主要难题。怎么办,怎么办……其实方法很多——有五种。
1. 扫描有时戳的数据,你可以清楚的知道:那些需要的数据是最近更新了的,至少我们可以有效避开时间不符的数据。(不幸的是:没有多少数据有时戳)
2. 扫描增量文件,(什么是增量文件,我也不知道,但可以肯定的是,它是由应用程序生成的,仅仅纪录发生改变的数据),不幸的事,没有多少程序有增量文件。L
3. 扫描审计文件和日志文件,这两个文件本质上和增量文件是一样的,除了大了一点,无用数据多了一点,接口程序难做一点,没别的坏处J。
4. 修改应用程序代码,(这好像过分了一点,为了设计数据仓库,居然让别人从写自己的应用程序),这并不常用,应为一个用程序的代码陈旧而且不易修改。L
5. 第五种方法就是没有方法!开玩笑。包括本书的所有资料都劝解我们不要这样做,所以,我只随便说两句:按时间做一些映像文件,比较他们的差别。但最好比用,我也觉得着方法不仅麻烦、复杂,而且需要各种资源。所以不到万不得已不用!J
第三个问题: 时基变化,难以把握。现存的操作型数据通常是当前值,精度可控,可以更新,但数据仓库中的数据是不能更新的,所以这些数据必须附带时间元素,实际操作的时候,从操作型系统传送到数据仓库时,必须在数据中进行较大范围的改变。这时,你就必须考虑数据的浓缩了,没办法,数据随时间总在变,数据仓库的空间有限阿!
到此为止,我们涉及了三个问题,以及他们的解决方法,但这还不足以使我们建一个自己的数据仓库,应为我们还没有学具体方法。下面一节的内容将……! 数据/过程模型和体系结构设计方法 首先介绍两个概念:过程建模和数据建模,简单的说,过程建模就像我们在编程之前画的流程图!有开始and结束。数据建模就像是给你白菜,萝卜、醋、食盐等,然后问你能做出什么菜,然后你很自然的回答:醋溜白菜&萝卜汤一样。没有为什么要这样做,应为只能这样做。J
过程建模是绝对不能用在数据仓库的设计上的,因为过程建模是基于需求的,它假设在细节设计之初就已经知道了需求,但在一点在建设数据从那个库的时候并不满足!
数据模型就好得多,它两边都合适!(嘻嘻,像万能胶)建造数据模型的时候不需要考虑现存的、操作型系统与数据仓库之间的差别。要做的事情看上去好像很简单:建一个企业数据模型,再建一个数据仓库模型,最好再来一上一页 [1] [2] [3] [4] [5] [6] [7] 下一页
|