返回首页
网站导航
资讯首页> 热点推荐 > 大数据产业的定义及关键技术有哪些?

    大数据产业的定义及关键技术有哪些?

    热点推荐2021年02月24日
    分享
      大数据的定义
      

      大数据是一个宽泛的概念,从 2001 年“大数据”一词在 Gartner 的研究报告出现至今,大数据一直没有统一的定义。

      
      Gartner 认为大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
      
      麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
      
      国际数据公司(IDC)从大数据的 4 个特征来定义,即海量的数据规模(Volume)、快速的数据流转和动态的数据体系(Velocity)、多样的数据类型(Variety)、巨大的数据价值(Value)。
      
      维基百科对“大数据”的定义是“无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合”。
      
      无论各方对于大数据的定义有何不同,但均体现了大数据“大”的特征。但体量大、结构多样体现更多的是数据特征,对于数据的处理与应用,则需要新技术(新型计算架构、智能算法等)、新理念与新知识。因此大数据不仅“大”,而且“新”,是新资源、新工具和新应用的综合体。
      
      对于大数据的处理与应用,则需要新技术(新型计算架构、智能算法等)、新理念与新知识。因此大数据不仅“大”,而且“新”,是新资源、新工具和新应用的综合体。
      
      大数据的关键技术
      
      大数据作为一种新兴技术,目前尚未形成完善、达成共识的技术标准体系。对大数据的理解和分析,提出了大数据参考架构。
      
      大数据参考架构总体上可以概括为“一个概念体系,二个价值链维度”。“一个概念体系”是指它为大数据参考架构中使用的概念提供了一个构件层级分类体系,即“角色—活动—功能组件”,用于描述参考架构中的逻辑构件及其关系;“二个价值链维度”分别为“IT价值链”和“信息价值链”,其中“IT价值链”反映的是大数据作为一种新兴的数据应用范式对IT技术产生的新需求所带来的价值,“信息价值链”反映的是大数据作为一种数据科学方法论对数据到知识的处理过程中所实现的信息流价值。这些内涵在大数据参考模型图中得到了体现。
      
      大数据的关键技术有:
      
      1、数据收集
      
      大数据时代,数据的来源极其广泛,数据有不同的类型和格式,同时呈现爆发性增长的态势,这些特性对数据收集技术也提出了更高的要求。数据收集需要从不同的数据源实时的或及时的收集不同类型的数据并发送给存储系统或数据中间件系统进行后续处理。数据收集一般可分为设备数据收集和Web数据爬取两类,常常用的数据收集软件有Splunk、Sqoop、Flume、Logstash、Kettle以及各种网络爬虫,如Heritrix、Nutch等。
      
      2、数据预处理
      
      数据的质量对数据的价值大小有直接影响,低质量数据将导致低质量的分析和挖掘结果。广义的数据质量涉及许多因素,如数据的准确性、完整性、一致性、时效性、可信性与可解释性等。
      
      大数据系统中的数据通常具有一个或多个数据源,这些数据源可以包括同构/异构的(大)数据库、文件系统、服务接口等。这些数据源中的数据来源现实世界,容易受到噪声数据、数据值缺失与数据冲突等的影响。此外数据处理、分析、可视化过程中的算法与实现技术复杂多样,往往需要对数据的组织、数据的表达形式、数据的位置等进行一些前置处理。
      
      数据预处理形式上包括数据清理、数据集成、数据归约与数据转换等阶段。
      
      3、数据存储
      
      分布式存储与访问是大数据存储的关键技术,它具有经济、高效、容错好等特点。分布式存储技术与数据存储介质的类型和数据的组织管理形式直接相关。目前的主要数据存储介质类型包括内存、磁盘、磁带等;主要数据组织管理形式包括按行组织、按列组织、按键值组织和按关系组织;主要数据组织管理层次包括按块级组织、文件级组织以及数据库级组织等。
      
      不同的存储介质和组织管理形式对应于不同的大数据特征和应用特点。
      
      4、数据处理
      
      分布式数据处理技术一方面与分布式存储形式直接相关,另一方面也与业务数据的温度类型(冷数据、热数据)相关。目前主要的数据处理计算模型包括MapReduce计算模型、DAG计算模型、BSP计算模型等。
      
      (1)MapReduce分布式计算框架
      
      MapReduce是一个高性能的批处理分布式计算框架,用于对海量数据进行并行分析和处理。与传统数据仓库和分析技术相比,MapReduce 适合处理各种类型的数据,包括结构化、半结构化和非结构化数据,并且可以处理数据量为TB 和 PB 级别的超大规模数据。
      
      (2)分布式内存计算系统
      
      使用分布式共享内存进行计算可以有效的减少数据读写和移动的开销,极大的提高数据处理的性能。支持基于内存的数据计算,兼容多种分布式计算框架的通用计算平台是大数据领域所必需的重要关键技术。
      
      (3)分布式流计算系统
      
      在大数据时代,数据的增长速度超过了存储容量的增长,在不远的将来,人们将无法存储所有的数据,同时,数据的价值会随着时间的流逝而不断减少,此外,很多数据涉及用户的隐私无法进行存储。对数据流进行实时处理的技术获得了人们越来越多的关注。
      
      5、数据分析
      
      大数据分析技术包括已有数据信息的分布式统计分析技术,以及未知数据信息的分布式挖掘和深度学习技术。分布式统计分析技术基本都可藉由数据处理技术直接完成,分布式挖掘和深度学习技术则可以进一步细分为:
      
      (1)聚类
      
      聚类指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。
      
      (2)分类
      
      分类是指在一定的有监督的学习前提下,将物体或抽象对象的集合分成多个类的过程。也可以认为,分类是一种基于训练样本数据(这些数据已经被预先贴上了标签)区分另外的样本数据标签的过程,即另外的样本数据应该如何贴标签。
      
      (3)关联分析
      
      关联分析是一种简单、实用的分析技术,就是发现存在于大量数据集中的关联性或相关性,从而描述了一个事物中某些属性同时出现的规律和模式。关联分析在数据挖掘领域也称为关联规则挖掘。
      
      (4)深度学习
      
      深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。深度学习的实质,是通过构建具有很多隐层的机器学习模型和海量的训练数据,来学习更有用的特征,从而最终提升分类或预测的准确性。
      
      6、数据可视化
      
      数据可视化(Data Visualization)运用计算机图形学和图像处理技术,将数据换为图形或图像在屏幕上显示出来,并进行交互处理。它涉及到计算机图形学、图像处理、计算机辅助设计、计算机视觉及人机交互等多个技术领域。数据可视化概念首先来自科学计算可视化(Visualization in Scientific Computing),科学家们不仅需要通过图形图像来分析由计算机算出的数据,而且需要了解在计算过程中数据的变化。