本报特约撰稿人刘庆表示,就国外成熟数据仓库厂商的理念而言,大多是以自上而下为主,采用Bill Inmon的方法,先建立一套完美的企业数据仓库,并且他们通常针对行业已经设计出抽象程度比较高的概念模型,可以根据实际环境生成逻辑模型和物理模型。在构建完美的数据仓库的时候,设计者会考虑最终有哪些应用,根据应用做取舍。


独立还是依赖
卢东明说:“在厂商的产品线中并没有区分数据仓库和数据集市,因为二者的基本技术是一致的。也不能简单地以容量划分数据仓库和数据集市,国外有的数据集市的容量达到了20TB,比很多数据仓库的容量还要大。”
数据集市可以分为两类:独立型和依赖型。在独立型数据集市中,数据来自一个或多个操作系统或外部信息提供者,或者来自在一个特定的部门或地域局部产生的数据。依赖型数据集市中的数据直接来自企业数据仓库。
刘庆认为,目前,国内还是依赖型的数据集市居多。两者的区别就在于是否从一个中央数据仓库而来。因为国内的数据仓库项目在开始阶段多是国外厂商推进的,肯定有些不理智,大多直接从数据仓库的概念入手,整合分散的、异构的数据。而独立型数据集市是因为客户有分析需求,需要一些用于分析的数据支撑,所以在部分或者自己的区域内建立这种小型数据仓库。独立型数据集市是服务具体分析应用的。
就应用而言,独立型和依赖型数据集市应该是相似的,因为目前对于数据集市的建模方法基本一致:使用建立面向主题的星型模式,服务于某项分析应用。二者主要的差别还是在扩展性方面,独立型数据集市还是会导致不一致的数据。因为它可能按照自己本地的方式来进行编码,当存在多个独立数据集市的时候,他们之间的数据很难共享。依赖型的数据集市则是按照中央数据仓库统一的编码方式,可以共享。
数据结构
数据集市中数据的结构通常被描述为星型结构或雪花结构。一个星型结构包含两个基本部分—一个事实表和各种支持维表。事实表描述数据集市中最密集的数据。在电话公司中,用于呼叫的数据是典型的最密集数据;在银行中,与账目核对和自动柜员机有关的数据是典型的最密集数据。对于零售业而言,销售和库存数据是最密集的数据。(ccw-cnw) |