p; 元数据 关于(使用)数据的(历史)数据,例如说数据仓库导入的第一次时间、第二次时间。源数据在Where,数据结构是what,抽取的历史纪录等等。
数据仓库中的管理参照表 数据仓库中的参考数据(起数据年鉴作用),数据仓库存在目的也就是为了提供参考依据,所以定期的产生参照数据可以减少数据仓库中的数据量。这也不难理解:有了参照数据,自然就没必要保留那些陈年旧帐了。
建立参照数据表有两种方法:
1. 每隔一个特定的时间,就做一个参考表的一个快照。
2. 一个快照就是一张参考表(合而为一),然后,针对每次修改做纪录。
数据周期 所谓数据周期是指从操作型环境数据发生改变,到这个变化在数据仓库中体现出来所用的时间。例如某位银行用户搬家,他的新地址被添加在操作型数据中,数据仓库觉察到后,立刻把自己的数据更新。这就是一个数据周期。
问题来了,这种调整应该什么时间进行一次呢?原则上是大于或等于24小时。这是为了数据的稳定和代价问题。
转换和集成的复杂性 这里有很多很多的内容,偏偏他们都很零碎,象是在介绍经验一样,还是留给你一点研究吧。(我要偷懒啦)这就是建数据库的方法。
触发数据仓库纪录 触发数据仓库需要一个事件,而这个事件应该是一重要活动,重要的以至于不能忽略它的存在,呵呵,简单点就像点了一个按钮,弹出了一个对话框一样。当捕获到这个事件的时候,在数据仓库中添加这个事件的快照。很简单,不是么?可能你会想知道,什么事件,怎么触发?举个例子,你的一个重要的客户,打电话通知你,修改交货地点,OK!你的反应恐怕是先找到这条发货纪录和客户纪录(这是快照),修改其中的交货地点(二次数据),写入数据仓库中。明白了?
管理数据仓库 管理的目的是为了让数据该走的走,该留的留,该统计的就统计,不要让过了期的数据占用宝贵的空间,呵呵,说着容易做着难,每人知道用户那一天会发疯似的翻陈年旧帐,万一出了差错,会坏事的哦。所以正确的处理方法就是:·#¥%…!·#。没看懂?啊哈,不好意思,这是外语,嘻嘻,总结一下有两点:
1. 使用简单纪录方式,概括、综合数据。这里有一个综合尺度的问题,不要一次就把数据综合到底,不要一次就丢掉数据的所有细节。让简单纪录的第一遍为第二遍提供依据。
2. 同时建立数据备份。这是最保险的方法,找张光盘阿,磁带阿之类的,写进去丢到保险箱里就完事了。什么?费钱费时,我觉得挺好啊,用户查的时候,可以收她的费么。还赚了一笔J
根据以上诸多的论述,你是不是已经建立了一个大体的框架?知道什么才算是数据仓库,怎样的表结构才算是符合数据仓库的?说句老实话,我现在也没能明白数据模型到底是个什么东西?是类似c++里的对象,还是类似数据结构里的结构体?我从中学到的是:数据仓库在设计的时候就必须考虑什么,而不是怎样做。所以,你一定要把这个东西搞明白,近期是不可能的。只能通过不断的实践,只应该是一个经验积累的过程,可以说还没有一个完全可行,可以照搬的方法来设计数据仓库。J是不是挺失望的,没关系,这本来就是一个上一页 [1] [2] [3] [4] [5] [6] [7] 下一页
|