具体的大数据处理方法确实有很多,但是根据笔者长时间的实践,总结了一个普遍适用的大数据处理流程,并且这个流程应该能够对大家理顺大数据的处理有所帮助。大数据来源广泛,应用需求和数据类型都不尽相同,不过最基本的处理流程是一样的。 《 v 。w , u, o u, h u, ok, e01》
大数据处理的基本流程
一般来说,大数据处理的基本流程可以分为数据抽取与集成、数据分析和数据解释这三个步骤。
一、数据抽取与集成
大数据来源广泛、种类多样、数据类型极其复杂,就像是想要从海水当中萃取盐分一样,想要从这样庞大杂乱的数据中提取价值,那首先就要对数据进行抽取和集成,从中提取出数据的实体和关系,经过关联和聚合后再采用统一定义的结构来存储这些数据。
在数据抽取和集成时,需要对数据进行清洗,保证数据的质量和可信。数据抽取和集成并不是大数据时代特有的技术,而是在传统的数据库领域就存在了,一直到大数据时代渐渐发展成熟,直到现在,现有的抽取与集成方法大概可以分为四种:
基于物化或ETL方法的引擎、基于联邦数据库或中间件方法的引擎、基于数据流方法的引擎,以及基于搜索引擎的方法。
二、数据分析
抽取、集成之后是数据分析,2.1中说抽取集成是海水中萃取出盐分,那数据分析就是二次加工,将粗盐精制为能够食用的食用盐……
和抽取与集成一样,数据分析同样不是大数据时代特有的技术,在以前同样也有统计分析、数据挖掘和机器学习等,不过这些技术不能适应大数据时代数据分析的要求,必须有所调整,而这个调整又面临着几个问题:
1.庞大的数据必然带来庞大的噪音,需要事前进行清洗,不过由于数据量过大,对于计算机资源和算法都是一个考验。
2.大数据时代的应用常常具有实时性的特定,因此算法的准确性不再是主要指标,而是需要再实时性和准确率之间取一个平衡。很多传统的算法都是现行执行,在大数据时代,这些算法都需要变为并发,以应对大数据的处理。
3.对数据结果的衡量标准比较困难,因为数据量大、内心混杂、产生速度快,进行分析的时候往往对整个数据的分布特点掌握得不清楚,从而导致设计衡量的方法和指标非常苦难。
三、数据解释
数据解释又称为数据分析,是大数据处理的核心,前两道工序将数据挖掘了出来,这个时候就要根据数据分析出一个结果了,比如有一个白领上班时间的大数据,那么根据大数据分析出今天这个白领在九点钟是否会出门上班……这个就叫做数据解释。
数据解释的方法很多(比如直接以文本方式输出结果),比较传统的解释方法无疑在大数据时代不适用,这个时候可以考虑从两个方面提升数据解释能力:
1.引入可视化技术,常见的可视化技术有标签云、历史流、空间信息流等。
2.让用户能够在一定时间程度上了解和参与具体的分析过程,比如人机交互技术。