什么是大数据时代(大数据的主要特征是什么)( 二 )


文章图片

05.什么是非关系型数据库?相对关系型数据库而言 , 非关系型数据库抛弃了固定的二维表格结构 , 存储机制灵活 , 比如键值对、文档、图形等格式都可以进行存储 。
常见的非关系型数据库有Redis、MongoDB、Cassandra等 。
性能是非关系型数据库最大的优势 。由于关系型数据库中的关系模型会占用掉90%的硬件资源及计算时间 , 对于有大量不需要关系功能的数据处理 , 非关系型数据库的性能是非常高的 。
另一方面 , 正是由于缺少数据表之间的关系 , 非关系型数据库很难在多个表之间做非常复杂的数据查询 。
06.什么是时序数据库?时序数据库是一类特殊的非关系型数据库 , 全称是时间序列数据库 。经研究发现 , 机器设备、传感器、系统日志等产生的数据有如下明显的特征:
数据是时序的 , 即按照一定时间顺序生成;
数据极少有更新或删除操作;
数据产生频率快、数据信息量大;
数据往往带有位置信息 。
传统的关系型数据库或非关系型数据库对于这类数据 , 在性能提升上极为有限 , 只能依靠集群技术 , 投入更多的计算资源和存储资源来处理 , 造成企业运营成本急剧上升 。而时序数据库可以有效地处理庞大的数据 , 通过创新的列式存储和先进的压缩算法 , 使用的计算资源不到传统方案的1/5 , 存储空间不到通用数据库的1/10 。
常见的时序数据库有InfluxDB等 。
07.什么是分布式存储?分布式存储是相对于集中式存储而言的 。分布式存储是由标准服务器(硬件)和分布式文件系统(软件)组成的 , 可扩展至千台硬件节点 , 支持块存储、对象存储、文件存储等多种类型统一管理 。
常见的分布式文件系统有HDFS、Ceph、GFS、GPFS、Swift等 。
举个通俗易懂的例子 , 如果把存储比喻成车厢 , 数据比喻成货物 。集中式存储方案下 , 如果要想拉更多的货物 , 只能更换更大的车厢 。而分布式存储方案 , 直接增加车厢就可以了 。有了分布式存储技术 , 存储EB级别(1EB=1024PB=1024*1024TB=1024*1024*1024GB)的海量数据库都不成问题 。
什么是大数据时代(大数据的主要特征是什么)
文章图片

08.什么是数据集成?由于开发部门或开发时间的不同 , 企业中往往有多个异构的、运行在不同的软硬件平台上的数据库 , 这些数据库彼此独立、相互封闭 , 使得数据难以在系统之间交流和共享 , 从而形成了”信息孤岛” 。随着信息化应用的不断深入 , 企业内部之间、企业与外部的信息交互的需求日益强烈 , 急切需要对已有的数据进行整合 , 打通”信息孤岛” , 这就是数据集成的意义 。