处理流程视角下的大数据技术发展现状与趋势

作者简介:陆泉,通讯作者,男,武汉大学信息管理学院教授,武汉大学信息资源研究中心,研究方向为数据挖掘,人机交互,知识组织与知识服务等,E-mail:mrluquan@whu.edu.cn;张良韬,男,武汉大学信息资源研究中心研究生,研究方向为大数据与数据挖掘。武汉 430072

内容提要:随着大数据研究的蓬勃发展,其相关技术产品也日趋多样复杂。本文首先归纳了由数据采集、数据预处理、数据存储与管理、数据分析与数据展示构成的大数据一般处理流程,进而从流程中各阶段角度梳理了现有大数据技术,对主要技术产品进行归类与分析,并对各阶段所面临的问题与未来的发展趋势进行讨论与总结,以建立处理流程视角下的大数据技术全景视图,为大数据技术的研究与应用发展提供指导。

关 键 词:大数据 处理流程 技术产品 开源 人工智能 隐私安全

标题注释:本文系教育部人文社会科学重点研究基地重大项目“大数据资源的挖掘与服务研究——面向医疗健康领域”的成果之一。

[中图分类号]TP311;TP391 [文献标识码]A [文章编号]2095-2171(2017)04-0017-12

1 引言

当前,随着互联网的高速发展、云计算技术的成熟以及移动终端和数据感应器的出现和普及,人们在生活中产生的数据量呈现指数级的增长。截至2014年6月底,中国互联网基础数据显示网民数量达到6.32亿,手机网民数量达到5.27亿,网站数达到273万[1],这导致海量数据的产生。而根据国际数据公司IDC检测,人类产生的数据量大约每2年翻一番,由此可知大数据的发展已经势不可挡。

大数据目前还未有一个确切的定义,各行各业有着自己的见解,但总体而言,其关键在于从数量庞大、种类繁多的数据中提取出有用的信息。大数据主要具有以下四个方面的典型特征:规模性(Volume)、多样性(Varity)、高速性(Velocity)和价值性(Value),即所谓的“4V”特性[2]。IBM的资深大数据专家Jeff Jonas提出要让数据“说话”,从而发现和理解信息内容及信息与信息之间的关系[3]。大数据的出现也转变了人类分析数据的态度,主要体现在以下三个方面:要全体而不是抽样,即利用所有的数据而不是仅仅依靠一小部分数据;要效率不要精确,即更加追求数据的分析效率而不是追求精确度;要相关不要因果,即只需要知道数据结果会是这样而不需要知道为什么会是这样。

大数据已成为一个新兴产业,其相关技术的运用可以帮助人们实现多个领域如科研教学、环境保护、金融经济、工程技术、生物医疗等的突破,如何将海量数据进行有效分析并加以利用,是大数据最重要的研发意义所在,目前许多公司都推出了自己的大数据相关技术产品,如IBM的DB2、Cognos与SPSS,惠普的Vertica分析平台以及Haven大数据平台,Google的Big Query等等,在各个领域都得到了广泛的应用。本文主要基于大数据处理流程视角梳理分析大数据技术产品与相关研究,有利于帮助人们了解现有大数据技术工具,对利用大数据进行管理及应用设计有着较大的作用。

2 基于大数据处理流程的主流技术工具分析

目前,人们对于大数据处理流程的认识都比较统一,基本可以划分为数据采集、数据预处理、数据存储与管理、数据分析与数据展示5个阶段,即利用Flume、Splunk等工具从数据源采集数据,用DataStage等进行预处理,为后继流程提供统一的高质量的数据集,然后将这些数据使用SQL、NoSQL等数据库技术进行集成和存储,分门别类地进行放置,再用合适的技术对其进行分析挖掘,并将最终的结果利用可视化技术如Tableau、Qlik等展现给用户,这就是整个大数据处理的流程,图1为大数据技术框架示意。

图1 大数据技术框架

2.1 数据采集

数据采集连接了计算机与外部物理世界,是大数据处理流程中最基础的一步,Kwon等人从数据质量管理和数据使用经验层次解释了大数据分析中的数据采集意图[4],阐述了有效的数据采集方案对于大数据研究具有重要意义。随着大数据越来越被重视,数据采集的挑战变得尤为突出,因此本节比较了几种流行的数据采集工具,它们大多抽象出了输入、输出和中间缓冲的架构,利用分布式的网络连接,实现一定程度的扩展性和可靠性。本节从扩展性、系统架构、系统特点方面对典型大数据采集工具进行了比较,如表1所示。

在数据采集相关研究中,如何更好更快地采集数据一直是其中的热点,刘富源等人结合Fluentd和HDFS,设计了一个分布式日志收集系统,可以从多种异构平台和应用收集日志,并将日志存储于HDFS上[8]。付华峥等人提出了一种基于标签树节点权重的正文提取算法,并应用于分布式大数据采集系统,从而能够高效获取网络数据[9]。在大数据背景下,解决数据采集过程中的数据量、实时性、传输速率等问题,是研究者更进一步研究的重点。

发表评论
留言与评论(共有 0 条评论)
   
验证码:

相关文章

推荐文章

'); })();