DW 2.0(一)

数据仓库是一个能够为企业提供整合的、粒度的、历史的数据的结构。DW 2.0是为下一代数据仓库定义的数据结构(其实也就是当前使用的)。在第一代数据仓库的时代,获取价值是指主要获取以数字为主的事务数据,并整合它们。而今天从企业数据中获得最大价值意味着利用所有的企业数据,并从中获取价值。数据的激增使得第一代数据仓库的架构已经无法满足分析的需求。因此,构建了以 DW2.0的范式。主要包括:数据仓库包含结构化和非结构化等多类数据、引入数据生命周期、突出元数据的作用、以动态机制为基础的技术等特点。

DW2.0 数据结构

1、数据生命周期

DW2.0 最突出也是最重要的特点就是对数据仓库中数据生命周期的认识。在DW2.0中数据是根据访问频率放置的,数据进入数据仓库后近开启了生命周期。数据的访问概率会伴随着存储事件的增加而下降,通常情况下,3~4年后数据的访问概率会明显下降,针对不同的数据访问概率和要求,可以采用不同的技术和模型去满足,与数据仓库面向主题的特点更加贴近。基于数据的生命周期,DW2.0数据仓库将存储区划分为四个区:交互区、整合区、近线取、归档区(如上图所示)。
数据是会会随着时间流动的,慢慢的从交互区,最终移动到归档区。数据的结构在不同的区之间可能会做些改变。不同的生命周期,数据的访问方式和分析手段会不同,对数据的响应要求也会改变,这样就会利用ETL或其他应用程序来处理。

交互区

交互区是数据进入DW2.0环境的入口。数据要么从DW2.0外部的ETL应用进入,要么是作为交互区内部应用事务的一部分来处理。交互区的特点有:

  • 交互区要保证快速响应,因此交互区只保留少量数据,且全部存储在磁盘上
  • 数据可以更新,所以任何访问只在访问的时刻正确,因为下一时刻数据可能已经更新了
  • 交互区的数据可能参照完整性约束,也可能不参照完整性约束,取决于应用程序的设计
  • 交互区的数据粒度可能差异很大,不存在一个一致性的设计。应用程序的数据粒度较小,而经外界流入交互区的数据粒度可能很大

整合区

整合区是应用数据和交易数据等最后汇总为企业数据的场所,经过整合区的ETL,应用数据转变为企业数据。与交互区对比,整合区的特点有:

  • 整合区的数据调用较少,但每次调用会有更多的数据
  • 整合区的中的数值被正确放置在整合区中后就永远不能更改,任何时候对整合区中数据的更改都是通过新建一条记录来实现。所以整合区内没有更改数据的概念
  • 整合区中有两种相关的参照完整性:1)区间参照完整性,指数据通过各区时的完整性,保证数据从交互区进入整合区时,数据必须有可辨别的源和目的以确保数据不会丢失;2)相同区中内的参照完整性,即同一区内部数据元素之间存在某种关系
  • 整合区包含公司中最小粒度级的数据,整合区中的数据非常小而且是原子的,为保证能够支持各类IDSS的需求
  • 整合区中的数据是在对交互区中的数据通过ETL层处理后收集得到的。在进行ETL处理时,同时进行数据的质量处理。简单的数据质量处理就是域检查和范围检查

近线区

近线区是整合区的一种缓存形式。近线区可能用于缓存也可能不用于缓存,这完全取决于数据仓库的性质。近线区的使用处于两个原因,成本和性能:1)近线区基于非磁盘存储技术运行,近线区存储成本大大小于磁盘存储;2)将访问率较低的数据下载到近线区,整合区存储的数据才能避免大量不准备使用的数据带来的开销,从而提升性能

近线区通过人工或一种跨媒介存储管理(CMSM)方法与整合区连接。近线区的工作流主要是不频繁的数据读取,但数据读取都是集中进行的。当数据中心的数据访问概率下降的时候,就会被放入到近线区。

归档区

归档区的数据可以直接从整合区得来,而不经过近线区。如果数据已经进入到近线区,那么一般数据会从近线区进入归档区。归档区的数据是巨大的,其主要问题是保证所需要的数据能够找到由于归档区的数据量和数据保留事件很长,归档区并不具备引用完整性约束。

归档环境的数据访问模式的特点:

  • 非常不频繁的访问
  • 大多数都是针对大量的顺序数据
  • 只有极少数的针对特定数据的访问

2、元数据

第一代数据仓库中,元数据并没有被认为或作为一个重要的组成部分,而在DW2.0之下,元数据尤为重要。元数据是用来描述数据和业务的数据,可以分为业务元数据(用业务语言描述公司业务的数据)和技术元数据(公司技术员描述数据格式、存储路径等技术相关的数据,即通常所说的元数据)。从适用范围来看,元数据又可以分为企业元数据和本地元数据。

DW2.0中的每个区中都有各自的元数据,其中包括交互区元数据,整合区元数据,近线区元数据以及归档区元数据。归档区元数据不同于其他元数据,这是因为归档区元数据直接置于归档数据中,以确保元数据不会跟其所描述的基础数据分离或丢失。

3、基础技术

数据仓库要满足不断变化的业务的需求,当业务发生变化的时候,数据仓库对应部分也要做调整,这要求数据仓库所使用的基础技术要具有扩展性、易迁移。

4、参照完整性

DW2.0的外部参照完整性是指数据从一个区进入到另一个区时完整性的保持,内部参照完整性是指数据在一个区内的完整性的保持。
在使用「NoSQL」的数据仓库中,参照完整性符合BASE要求,即基本可用、软状态/柔性事务、最终一致性,并不需要每个事务都是一致的,只需要整个系统经过一定时间后最终达到是一致。

待处理的问题

1、元数据和主数据的概念梳理
2、模型中快照的作用?是否在整合之前一定要留快照

2016-12-25 21:46 17 数据仓库 数据建模
Comments
Write a Comment