数据仓库的概念及用途,简述数据库 数据仓库 和数据挖掘三者之间的关系

1、简述数据库 数据仓库 和数据挖掘三者之间的关系先说说数据仓库和数据挖掘的关系,再说说数据库与数据仓库的关系
数据仓库与数据挖掘的联系
(1) 数据仓库为数据挖掘提供了更好的、更广泛的数据源 。
(2) 数据仓库为数据挖掘提供了新的支持平台 。
(3) 数据仓库为更好地使用数据挖掘这个工具提供了方便 。
(4) 数据挖掘为数据仓库提供了更好的决策支持 。
(5) 数据挖掘对数据仓库的数据组织提出了更高的要求 。
(6) 数据挖掘还为数据仓库提供了广泛的技术支持 。
数据仓库与数据挖掘的差别
(1) 数据仓库是一种数据存储和数据组织技术, 提供数据源 。
(2) 数据挖掘是一种数据分析技术, 可针对数据仓库中的数据进行分析 。
1、数据库:是一种逻辑概念,用来存放数据的仓库,通过数据库软件来实现 。数据库由很多表组成 , 表是二维的,一张表里面有很多字段 。字段一字排开,对数据就一行一行的写入表中 。数据库的表,在于能够用二维表现多维的关系 。如:oracle、DB2、MySQL、Sybase、MSSQL Server等 。
2、数据仓库:是数据库概念的升级 。从逻辑上理解,数据库和数据仓库没有区别,都是通过数据库软件实现存放数据的地方,只不过从数据量来说,数据仓库要比数据库更庞大德多 。数据仓库主要用于数据挖掘和数据分析 , 辅助领导做决策;
区别主要总结为以下几点:
1.数据库只存放在当前值,数据仓库存放历史值;
2.数据库内数据是动态变化的 , 只要有业务发生,数据就会被更新,而数据仓库则是静态的历史数据,只能定期添加、刷新;
3.数据库中的数据结构比较复杂,有各种结构以适合业务处理系统的需要,而数据仓库中的数据结构则相对简单;
4.数据库中数据访问频率较高 , 但访问量较少,而数据仓库的访问频率低但访问量却很高;
5.数据库中数据的目标是面向业务处理人员的,为业务处理人员提供信息处理的支持,而数据仓库则是面向高层管理人员的,为其提供决策支持;
6.数据库在访问数据时要求响应速度快,其响应时间一般在几秒内,而数据仓库的响应时间则可长达数几小时
数据库(DataBase,DB)是一个长期存储在计算机内的、有组织的、有共享的、统一管理的数据集合 。它是一个按数据结构来存储和管理数据的计算机软件系统 。
数据仓库,英文名称为Data Warehouse,可简写为DW或DWH 。是决策支持系统(dss)和联机分析应用数据源的结构化数据环境 。数据仓库研究和解决从数据库中获取信息的问题 。是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它并不是所谓的“大型数据库” 。
数据挖掘(Data Mining)是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示3个步骤 。主要是通过分析大量的数据 , 发现一些事物之间不易为人察觉的规律 。可以建立在数据仓库的基础上,不过一个数据仓库的建立会耗费大量的人力、物力、财力和较长的时间,若只为了进行数据挖掘而建立一个数据仓库是不值得的 , 但若数据仓库本身是建立好的 , 那在其基础上进行数据挖掘则会省很多事情 。
想要学习了解更多数据库、数据仓库、和数据挖掘的信息 , 推荐CDA数据分析师课程 。“CDA 数据分析师认证”是一套科学化,专业化 , 国际化的人才考核标准 , 涉及行业包括互联网、金融、咨询、电信、零售、医疗、旅游等,该标准符合当今全球数据科学技术潮流,可以为各行业企业和机构提供数据人才参照标准 。点击预约免费试听课 。
数据仓库是要集成多种数据源,比如个人财务记录和购物记录,比如企业的原料、生产、销售的异构数据库 。数据库一般是单一结构的 , 没办法集成异构源去做一个统一接口,所以在数据分析需求达到宏观规模后才弄出这么个概念来 。所谓面向事务和面向主题就是这个意思 。事务是数据记录查询的单一任务,主题是数据分析目标的相关数据范畴 。
数据仓库是数据挖掘的对象,进行大规模的数据挖掘前先要建立数据仓库 , 数据挖掘的研究方向有偏向数据库的 。
数据挖掘得到的结果和模式不应该是一劳永逸、一成不变的 , 而是应该根据用以挖掘的数据的更新而不断更新的 。FineBI数据挖掘的结果在每次FineBI多维数据库更新时 , 可以自动重新进行整个挖掘的训练、预测和保存过程 。同理,OLAP分析中用到的数据挖掘产生的数据也随之更新 。
既然简述,我就最简单的方法说 。
数据库是储存目前最需要的数据的地方
数据仓库就是一个放永久数据的地方 。只增加,不减少 。
数据挖掘是在数据集上做的一种对数据存在的各种潜在的,相关的一种技术 。

数据仓库的概念及用途,简述数据库 数据仓库 和数据挖掘三者之间的关系

文章插图
2、什么是数据仓库?目前,数据仓库一词尚没有一个统一的定义,著名的数据仓库专家W.H.Inmon在其著作《Building the Data Warehouse》一书中给予如下描述:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合 , 用于支持管理决策 。对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改 。
根据数据仓库概念的含义 , 数据仓库拥有以下四个特点:
1、面向主题 。操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织 。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面 , 一个主题通常与多个操作型信息系统相关 。
2、集成的 。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的 。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息 。
3、相对稳定的 。操作型数据库中的数据通常实时更新,数据根据需要及时发生变化 。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新 。
4、反映历史变化 。操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测 。
数据仓库,英文名称为Data Warehouse,可简写为DW或DWH 。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合 。它是单个数据存储,出于分析性报告和决策支持目的而创建 。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制 。
我简单的做一个比喻,数据仓库就是可以理解就是一个使用仓库,数据就是这个仓库的货物 , 而数据仓库的开发人员就是这个仓库的管理员 , 所以数据仓库就是一个怎么管理好数据,使得数据规范的放在仓库中,便于BI、AI等其他的使用数据的方面可以更好的使用仓库里面的数据,使得数据发挥出更好的价值,显而易见在一堆有规律,整齐的货物里面找一个东西,要比在没有整理的里面找更加有效率 。
可以参考这篇文章:数据仓库(1)什么是数据仓库
数据库
数据仓库的概念及用途,简述数据库 数据仓库 和数据挖掘三者之间的关系

文章插图
3、数据的数据仓库【数据仓库的概念及用途,简述数据库 数据仓库 和数据挖掘三者之间的关系】 根据数据仓库概念的含义 , 数据仓库拥有以下四个特点:
1、面向主题 。操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织 。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关 。
2、集成的 。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的 。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性 , 以保证数据仓库内的信息是关于整个企业的一致的全局信息 。
3、相对稳定的 。操作型数据库中的数据通常实时更新,数据根据需要及时发生变化 。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后 , 一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新 。
4、反映历史变化 。操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息 , 可以对企业的发展历程和未来趋势做出定量分析和预测 。企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础 。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者 , 供他们做出改善其业务经营的决策,信息才能发挥作用,信息才有意义 。而把信息加以整理归纳和重组 , 并及时提供给相应的管理决策人员,是数据仓库的根本任务 。因此,从产业界的角度看,数据仓库建设是一个工程,是一个过程 。
数据仓库的概念及用途,简述数据库 数据仓库 和数据挖掘三者之间的关系

文章插图
4、什么是数据仓库?为什么要建立数据仓库?数据仓库有什么特点数据库是一个装数据(信息的原材料)的地方 。数据仓库是一种系统,这种系统也是用数据库装东西 。(这有点没说清楚:个人理解数据库和数据仓库当然都是装数据的地方,关键的区别是装的什么样的数据,数据库装的原始数据 , 没经过任何加工;而数据仓库是为了满足分析需要 , 对源数据进行了Transform过程,具体是怎样一个处理过程,可以从Bill Inmon的仓库定义四个特性进行理解 。)数据仓库系统(用数据库装东西)与其他基础业务系统(例如财务系统、销售系统、人力资源系统等,也是用数据库装东西)的区别是: 基础业务系统的特点是各管各的,例如财务系统生产了白菜,那么用一个数据库来装 , 人力资源系统生产了猪肉,再用一个数据库来装 。我要做一道菜,需要分别到各个数据库去?。?比较麻烦(现实的情况是大部分时候让种菜的农民伯伯送过来 , 但送过来的东西不一定是我想要的,而且不同的时候我想要不同的东西,经常会被农民伯伯骂,弄得双方都不开心) 。另外一方面,各个数据库中放的是一些比较原始的东西,我要拿过来做菜,还需要经过很麻烦的清洗过程,一不小心里面可能就藏着一条大青虫 。那么 , 数据仓库系统就是建立一个大的超市,将各地农民伯伯出产的东西收集过来,清洗干净,分门别类地放好 。这样,你要哪种菜的时候,直接从超市里面拿就可以了 。
数据仓库的特点是:
(1)数据仓库是面向主题的.
(2)数据仓库是集成的
(3)数据仓库具有时间相关性.
(4)数据仓库的数据是相对稳定的.
数据仓库可以说是决策支持系统(个人不同意这个观点,决策支持系统(DDS)是在管理信息系统的基础上发展起来的 , 在数据仓库、OLAP技术和数据挖掘工具出现以前,就已经有DSS了,但其在实际应用开发过程中暴露出许多问题,DW为克服传统DDS存在的问题提供了技术上的支持,基于DW上的DSS效果自然有很大提升),能帮助老板了解企业的整体全貌 , 看到数据仓库提供的经过整理统计归纳的数据后老板凭自己的管理经验可以发现企业的问题或困难或成功因素在哪一方面,然后可以不断的追溯数据,直到确定到最具体的细节上,这样能够不断提升老板或管理层的管理水平,不断改善企业的管理 。我们知道的最好的一个例子就是美国某大型超市啤酒和尿布的故事 。沃尔玛公司在美国的一位店面经理曾发现 , 每周,啤酒和尿布的销量都会有一次同比攀升,一时却搞不清是什么原因 。后来,沃尔玛运用商业智能(Business Intelligence,简称BI)技术发现,购买这两种产品的顾客几乎都是25岁到35岁、家中有婴儿的男性 , 每次购买的时间均在周末 。沃尔玛在对相关数据分析后得知,这些人习惯晚上边看球赛、边喝啤酒,边照顾孩子,为了图省事而使用一次性的尿布 。得到这个结果后,沃尔玛决定把这两种商品摆放在一起,结果,这两种商品的销量都有了显著增加 。数据库是数据仓库的基础 。数据仓库实际上也是由数据库的很多表组成的(这句话明显不成立,数据仓库里表分为事实表和维表,这和数据库里的表还是有本质区别的,组织方式完全不一样 , 一个是面向主题 , 一个是面向业务的) 。需要把存放大量操作性业务数据的数据库经过筛选、抽取、归纳、统计、转换到一个新的数据库中 。然后再进行数据展现 。老板关注的是数据展现的结果 。
数据仓库 , 英文名称为Data Warehouse,可简写为DW或DWH 。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合 。它是单个数据存储 , 出于分析性报告和决策支持目的而创建 。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制 。
我简单的做一个比喻 , 数据仓库就是可以理解就是一个使用仓库,数据就是这个仓库的货物,而数据仓库的开发人员就是这个仓库的管理员,所以数据仓库就是一个怎么管理好数据,使得数据规范的放在仓库中 , 便于BI、AI等其他的使用数据的方面可以更好的使用仓库里面的数据,使得数据发挥出更好的价值 , 显而易见在一堆有规律,整齐的货物里面找一个东西,要比在没有整理的里面找更加有效率 。
可以参考这篇文章:数据仓库(1)什么是数据仓库
数据仓库概念:
英文名称为Data Warehouse,可简写为DW或DWH 。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support) 。它出于分析性报告和决策支持目的而创建 。
这就要从数仓能解决的问题或者痛点来说,大型公司的业务相对复杂,随着公司业务的扩大 , 跨BU , 跨BG的业务往来越来越多,而数据一般分散在各个部门,这样需要统一的平台来存储这样的跨系统的数据 。此外,近年来分库分表等应用越来越多,仅通过传统关系型数据库做数据分析和挖掘已经不能满足要求 。当然随着手机APP的大量使用,埋点等数据一般都以log日志方式存在,需要一个新的介质后者方案来解析这些数据,为了解决这个问题,数仓技术应运而生 。
反过来讲,如果公司系统较为单纯,数据量比较小,传统关系型数据库以及完全可以满足数据检索和分析的需求,就不需要花成本来构建数仓 。
其实构建数仓的原因还有很多,但无非是用一个更可靠的平台把分散的低价值的数据通过清洗,整合,分析挖掘使得数据的价值最大化 。
数据仓库的概念及用途,简述数据库 数据仓库 和数据挖掘三者之间的关系

文章插图
5、详解数据仓库和数据库的区别首先我们来了解数据仓库和数据库分别是什么:
1、数据库:是一种逻辑概念,用来存放数据的仓库,通过数据库软件来实现 。数据库由很多表组成,表是二维的,一张表里面有很多字段 。字段一字排开,对数据就一行一行的写入表中 。数据库的表 , 在于能够用二维表现多维的关系 。如:oracle、DB2、MySQL、Sybase、MSSQL Server等 。
2、数据仓库:是数据库概念的升级 。从逻辑上理解 , 数据库和数据仓库没有区别,都是通过数据库软件实现存放数据的地方,只不过从数据量来说,数据仓库要比数据库更庞大德多 。数据仓库主要用于数据挖掘和数据分析,辅助领导做决策;
区别主要总结为以下几点:
1.数据库只存放在当前值 , 数据仓库存放历史值;
2.数据库内数据是动态变化的 , 只要有业务发生,数据就会被更新,而数据仓库则是静态的历史数据,只能定期添加、刷新;
3.数据库中的数据结构比较复杂,有各种结构以适合业务处理系统的需要,而数据仓库中的数据结构则相对简单;
4.数据库中数据访问频率较高,但访问量较少,而数据仓库的访问频率低但访问量却很高;
5.数据库中数据的目标是面向业务处理人员的,为业务处理人员提供信息处理的支持 , 而数据仓库则是面向高层管理人员的 , 为其提供决策支持;
6.数据库在访问数据时要求响应速度快 , 其响应时间一般在几秒内,而数据仓库的响应时间则可长达数几小时
数据仓库:为企业所有级别的决策制定过程,提供所有类型数据支持的战略(数据)集合 。
大数据:所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯 。
传统数据库:一个长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合 。
其实从三个定义,我们好像区别不大 。
数据库指的是数据的集合,数据仓库也是一个数据集合,大数据也是一个处理和存储数据的地方 。
但是不同的是 , 在于应用场景,和构建的技术原理不一样 。
传统数据库是存储根据范式建模的关系型数据 , 主要用于OLTP(on-line transaction processing)翻译为联机事务处理的软件 。大数据是根据map redurce范式构建的出局处理,存储的软件 , 主要用于OLAP是做分析处理 。大数据和传统数据库,还有一个更大的区别在于,处理的数据量以及计算量的大小,当传统数据库,无法在人可以接受的短时间内计算出结果,那这个数据就叫大数据,需要使用到大数据技术处理 。而数据仓库本质上是一种数据的处理方式,而不是一种基础软件,它可以依赖于传统数据库,也可以依赖大数据技术去构建 。
可以参考这篇文章:数据仓库(2)数据仓库、大数据与传统数据库的区别 – 知乎 (zhihu.com)
数据仓库本身是一个非常大的数据库,但数据仓库存储的是由组织作业数据库中整合而来的数据;数据库是面向事务的设计,数据仓库是面向主题设计的;数据库一般存储业务数据,数据仓库存储的一般是历史数据;数据库设计是尽量避免冗余,一般针对某一业务应用进行设计,比如一张简单的User表,记录用户名、密码等简单数据即可,符合业务应用,但是不符合分析 , 数据仓库在设计是有意引入冗余,依照分析需求,分析维度、分析指标进行设计;数据库是为捕获数据而设计 , 数据仓库是为分析数据而设计 。
参考资料:《大学计算机-计算思维导论》,清华大学出版社2019
数据库:传统的关系型数据库的主要应用,主要是基本的、日常的事务处理 , 例如银行交易 。
数据仓库:数据仓库系统的主要应用主要是OLAP(On-Line Analytical Processing),支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果 。