什么是大数据时代(大数据的主要特征是什么)( 三 )


数据集成是把不同来源、不同种类、不同格式的数据在物理上或逻辑上进行集中 , 为企业提供全面的数据共享 。数据集成主要解决的问题是各个数据源的异构性 , 包括数据库的异构性、通信协议的异构性、数据类型的异构性、数据取值的异构性等 。
09.什么是数据清洗?数据清洗是一种清除错误数据、去掉重复数据的技术 。数据经过清洗之后 , 可以还保存到原来的数据库中 , 也可以和数据集成联系在一起 , 最终保存到集成后的数据库里 。
举几个数据清洗的实例:
1.在用户信息表中 , 规定有姓名、性别、地址、手机、邮箱五个字段是必填的 。而某些用户缺少某些字段的值 , 因此需要补充这些数据 。
2.英文的姓名之间规定要有空格 , 而某些姓名没有空格 , 比如”JohnSmith” , 就需要修正这类错误 。
3.有些数据表的金额单位是元 , 有些数据表的金额单位是万元 , 数据集成时就需要统一单位 。
4.两条用户记录完全重复 , 需要进行去重处理 。
10.什么是ETL?ETL是Extraction、Transformation、Loading三个单词的首字母缩写 , 指的是数据抽取、转换、加载的过程 。
数据抽取是从不同的数据源中获取我们需要的数据的过程 , 和数据集成的概念类似 , 这个过程往往会做一些数据清洗和数据转换 。数据转换的任务主要是进行数据格式的转换和一些业务规则的计算 。数据加载通常是指在数据清洗和数据转换完成后 , 写入到目标数据库中去 。
什么是大数据时代(大数据的主要特征是什么)
文章图片

11.什么是数据分析?数据分析是基于商业需要 , 有目的的对数据进行收集、整理、加工、分析 , 最终提炼有价值的信息的过程 。
数据分析的四个步骤:
需求分析、明确目标;
数据收集、加工处理;
数据挖掘、数据展现;
分析报告、提炼价值 。
什么是大数据时代(大数据的主要特征是什么)
文章图片

12.什么是数据埋点?所谓数据埋点就是从应用的特定流程中收集一些信息 , 跟踪用户使用的状况 , 用来提供运营的数据支撑 , 进一步优化产品 。
常见的信息包括独立访客数(UV)、页面浏览量(PV)、页面停留时长、页面跳出率、交互元素的点击事件等 。
数据埋点通常有两种方式:
第一种是研发团队在产品中注入代码 , 并搭建响应的查询平台;
第二种是借助第三方数据埋点工具 , 如神策数据、百度统计等 。
13.什么是数据仓库?数据仓库 (Data Warehouse) 简称DW , 存储大量数据的集成中心 。数据仓库的目的是构建面向分析的集成化数据环境 , 为企业提供决策支持(Decision-Support) 。它为企业提供一定的BI(商业智能)能力 , 指导业务流程改进、监视时间、成本、质量以及控制 。