数据仓库的特点

数据仓库的特点,第1张

数据仓库的特点是面向主题、集成、稳定、反映历史变化。

数据仓库作为现代化的产物,其特点有面向主题, *** 作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据按照一定的主题域进行组织。主题是一个抽象概念,是指用户使用数据仓库进行决策时所关心的重点方面。

并且它是集成的,面向事务处理的 *** 作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的。

必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。同时它也是稳定的, *** 作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据 *** 作主要是数据查询。

一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询 *** 作,但修改和删除 *** 作很少,通常只需要定期的加载、刷新。而且它可以反映历史变化, *** 作型数据库主要关心当前某一个时间段内的数据。

但是数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点如开始应用数据仓库的时点到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。

数据仓库

数据仓库,简称DW,是为给企业所有级别的决策制定过程,提供所有类型数据支持的战略集合,被认为是商业智能的核心组件。

简单来说,储存引擎分为两大类。针对事务处理(OLTP)和针对分析型(OLAP)。

事务性处理优化架构的数据库通常面对用户,为具体的程序设计。在使用中往往磁盘的寻道时间会是负载的瓶颈。更具体细分的一哈,主要分为两大流派:

日志结构流派,具体的有BitCask、SSTables、LSM-tree等都属于此类

原地更新流派,B-tree类型是这一类的代表。像我们熟悉的关系型数据库和非关系型数据库。mysql,mongodb等等。

分析型的不面向最终用户,一般是业务分析师使用。需要在短时间扫描百万条记录,磁盘带宽通常是瓶颈。数据库有c-store等。面向列储存是这种数据库工作负载比较流行的解决方案。

希望是你期望的答案~~~~~~~

事务有三种模型:

1.隐式事务是指每一条数据 *** 作语句都自动地成为一个事务,事务的开始是隐式的,事务的结束有明确的

标记。

2.显式事务是指有显式的开始和结束标记的事务,每个事务都有显式的开始和结束标记。

3.自动事务是系统自动默认的,开始和结束不用标记。

并发控制

1. 数据库系统一个明显的特点是多个用户共享数据库资源,尤其是多个用户可以同时存取相同数据。

串行控制:如果事务是顺序执行的,即一个事务完成之后,再开始另一个事务

并行控制:如果DBMS可以同时接受多个事务,并且这些事务在时间上可以重叠执行。

2.并发控制概述

事务是并发控制的基本单位,保证事务ACID的特性是事务处理的重要任务,而并发 *** 作有可能会破坏其ACID特性。

DBMS并发控制机制的责任:

对并发 *** 作进行正确调度,保证事务的隔离性更一般,确保数据库的一致性。

如果没有锁定且多个用户同时访问一个数据库,则当他们的事务同时使用相同的数据时可能会发生问题。由于并发 *** 作带来的数据不一致性包括:丢失数据修改、读”脏”数据(脏读)、不可重复读、产生幽灵数据。

(1)丢失数据修改

当两个或多个事务选择同一行,然后基于最初选定的值更新该行时,会发生丢失更新问题。每个事务都不知道其它事务的存在。最后的更新将重写由其它事务所做的更新,这将导致数据丢失。如上例。

再例如,两个编辑人员制作了同一文档的电子复本。每个编辑人员独立地更改其复本,然后保存更改后的复本,这样就覆盖了原始文档。最后保存其更改复本的编辑人员覆盖了第一个编辑人员所做的更改。如果在第一个编辑人员完成之后第二个编辑人员才能进行更改,则可以避免该问题。

(2)读“脏”数据(脏读)

读“脏”数据是指事务T1修改某一数据,并将其写回磁盘,事务T2读取同一数据后,T1由于某种原因被除撤消,而此时T1把已修改过的数据又恢复原值,T2读到的数据与数据库的数据不一致,则T2读到的数据就为“脏”数据,即不正确的数据。

例如:一个编辑人员正在更改电子文档。在更改过程中,另一个编辑人员复制了该文档(该复本包含到目前为止所做的全部更改)并将其分发给预期的用户。此后,第一个编辑人员认为所做的更改是错误的,于是删除了所做的编辑并保存了文档。分发给用户的文档包含不再存在的编辑内容,并且这些编辑内容应认为从未存在过。如果在第一个编辑人员确定最终更改前任何人都不能读取更改的文档,则可以避免该问题。

( 3)不可重复读

指事务T1读取数据后,事务T2执行更新 *** 作,使T1无法读取前一次结果。不可重复读包括三种情况:

事务T1读取某一数据后,T2对其做了修改,当T1再次读该数据后,得到与前一不同的值。

(4)产生幽灵数据

按一定条件从数据库中读取了某些记录后,T2删除了其中部分记录,当T1再次按相同条件读取数据时,发现某些记录消失

T1按一定条件从数据库中读取某些数据记录后,T2插入了一些记录,当T1再次按相同条件读取数据时,发现多了一些记录。


欢迎分享,转载请注明来源:内存溢出

原文地址: https://www.outofmemory.cn/sjk/10026939.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-04
下一篇 2023-05-04

发表评论

登录后才能评论

评论列表(0条)

保存