需要反复的过程,%50的成功率就算是不错的了,所以没必要担心 :P
好吧,假设我们在考虑了所有的情况后,建了一个十分完美的数据仓库(有点厚颜无耻,xixi),开始访问吧,你必须牢记这样一个事实,数据仓库一定有你所需要的数据,否则就必须进行二次补丁开发。你开始统计、抽取、计算等等,没有能不能,只有要不要!
模拟一下,你是一个银行雇员,在收到了一个用户的借贷请求,那你就必须想方法确定这个用户的信用值和个人资产以及工作情况,来判断是否给这个人贷款。这里有一个非常复杂的程序在后台做这件事情。而且数据仓库中也为这种请求准备了相应的数据。这种审核是综合的也是非常快的。这时,必须考虑:
1. 偿还历史。
2. 私有财产。
3. 财务管理。
4. 净值。
5. 全部收入。
6. 全部开销。
7. 其它的无形资产。
……
在经过复杂的计算后,才能得到审核的最后结果,但这个过程所需的很多数据都是数据仓库整理出来的。Ok,你是不是明白了数据仓库还是挺有用的。
但让我们考虑一下这种数据的存在形式吧,……,有没有发现最后的数据是一个综合了很多情况的合成数据。很多很多的内容,像一个大锅腊八粥,但里边的配料来在不同的地方。嘻嘻,其实这是数据仓库中必然的现象,称之为星型联接。哦——,其实这些部分都是有名字的,中间的综合的是“事实表”,周边的是维表。而且这里边还有一个现象:事实表中包含了维表的主键。你可能没有反应过来,但事实就是这样。
这里遍蕴含了数据仓库的访问技巧。
好好想想吧,想明白了最好能教一下我J。
在明白了涉及数据仓库的几大要素之后,OK! Let’s go on. 下面的问题将很深入的讨论类似于设计细节和管理细节的话题。看过之后需要深入的思考,这才能从中领悟作者的本意。主要原因也包括翻译问题。
来看看第一个问题: 数据仓库的粒度 数据仓库中的粒度是指数据的详细程度,同样为了描述一个情况,我可以用很多的数据,但同样我也可以只用必需的数据。而这起决于存储器。如果有很大的硬盘,那就没有我们不能存的事情。所以,估计一年内里表中的最大行数和最小行数,是设计者的最大问题。这里牵扯到了一个概念:上下限推测的方法。(别问我,我也不懂)
然后通过简单的计算可以知道数据库大概的情况,然后可以调整我们的策略。说的仔细一点,我们可以采用双重粒度或者单一粒度的办法。
双重粒度是降低数据量的最佳方法。而且,大多数公司都采用这种方法。下面来一个分析:
双重粒度包括:上一页 [1] [2] [3] [4] [5] [6] [7] 下一页
|