前言:
我们生活在一个高速发展的时代,科技发达、信息快速流通,人们之间的交流越来越密切、联系越来越紧密的社会,而大数据就是顺应这个高科技时代的产物。今天我们一起来聊一聊“大数据”这个热门词汇,探讨一下大数据的实际应用、发展趋势和面临的问题。
一、背景 - 政府推动大数据发展历程
2015年9月,《促进大数据发展行动纲要》(以下简称《纲要》),系统部署大数据发展工作。《纲要》明确,推动大数据发展和应用,在未来5-10年打造精准治理、多方协作的社会治理新模式,建立运行平稳、安全高效的经济运行新机制,构建以人为本、惠及全民的民生服务新体系,开启大众创业、万众创新的创新驱动新格局,培育高端智能、新兴繁荣的产业发展新生态。
2016年3月17日,《中华人民共和国国民经济和社会发展第十三个五年规划纲要》发布,其中第二十七章“实施国家大数据战略”提出:把大数据作为基础性战略资源,全面实施促进大数据发展行动,加快推动数据资源共享开放和开发应用,助力产业转型升级和社会治理创新;具体包括:加快政府数据开放共享、促进大数据产业健康发展。
二、大数据概念
要知道,大数据不是我们单纯字面上的理解为数据大,最重要的是体现在实际运用时候对大数据进行分析,只有通过数据分析才能获取大量智能的、深入的、有价值的信息。
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
三、大数据的特点
左:肯尼斯·库克耶 右:维克托·迈尔-舍恩伯格
在维克托·迈尔-舍恩伯格(Viktor Mayer-Sch?nberger)及肯尼斯·库克耶(Kenneth Cukier)编写的《大数据时代》中,大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。
大数据5V特点
大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。在此基础上,专家学者们还总结出复杂性(Complexity)、价值(value)。
1. 容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息;
2. 种类(Variety):数据类型的多样性;
3. 速度(Velocity):指获得数据的速度;
4. 可变性(Variability):妨碍了处理和有效地管理数据的过程;
5. 真实性(Veracity):数据的质量;
6. 复杂性(Complexity):数据量巨大,来源多渠道;
7. 价值(Value):合理运用大数据,以低成本创造高价值。
大数据的计算
四、大数据计算:按照进率1024(2的十次方)计算
大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
它们按照进率1024(2的十次方)来计算:
1 Byte =8 bit
1 KB = 1,024 Bytes = 8192 bit
1 MB = 1,024 KB = 1,048,576 Bytes
1 GB = 1,024 MB = 1,048,576 KB
1 TB = 1,024 GB = 1,048,576 MB
1 PB = 1,024 TB = 1,048,576 GB
1 EB = 1,024 PB = 1,048,576 TB
1 ZB = 1,024 EB = 1,048,576 PB
1 YB = 1,024 ZB = 1,048,576 EB
1 BB = 1,024 YB = 1,048,576 ZB
1 NB = 1,024 BB = 1,048,576 YB
1 DB = 1,024 NB = 1,048,576 BB
全称:
1 Bit(比特) =Binary Digit
8Bits = 1 Byte(字节)
1,000 Bytes = 1 Kilobyte
1,000Kilobytes = 1 Megabyte
1,000 Megabytes = 1 Gigabyte
1,000 Gigabytes = 1Terabyte
1,000 Terabytes = 1 Petabyte
1,000 Petabytes = 1 Exabyte
1,000Exabytes = 1 Zettabyte
1,000 Zettabytes = 1 Yottabyte
1,000 Yottabytes = 1Brontobyte
1,000 Brontobytes = 1 Geopbyte
大数据分析
五、大数据分析
越来越多的应用涉及到大数据,这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增长的复杂性,所以,大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。基于此,大数据分析方法理论有哪些呢?
1、大数据分析的五个基本方面
(1)、预测性分析能力(PredictiveAnalyticCapabilities)
数据挖掘可以让数据分析员更好的理解数据,而预测性分析可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性的判断。
(2)、数据质量和数据管理(DataQualityandMasterDataManagement)
数据质量和数据管理是一些管理方面的最佳实践。通过标准化的流程和工具对数据进行处理可以保证一个预先定义好的高质量的分析结果。
(3)、可视化分析(AnalyticVisualizations)
不管是对数据分析专家还是普通用户,数据可视化是数据分析工具最基本的要求。可视化可以直观的展示数据,让数据自己说话,让观众听到结果。
(4)、语义引擎(SemanticEngines)
我们知道由于非结构化数据的多样性等原因,为数据分析带来了新的挑战,我们需要一系列的工具去解析、提取、分析数据。语义引擎需要被设计成能够从“文档”中智能提取信息。
(5)、数据挖掘算法(DataMiningAlgorithms)
可视化是给人看的,数据挖掘就是给机器看的。集群、分割、孤立点分析还有其他的算法让我们深入数据内部,挖掘价值。这些算法不仅要处理大数据的量,也要处理大数据的速度。
假如大数据真的是下一个重要的技术革新的话,我们最好把精力关注在大数据能给我们带来的好处,而不仅仅是挑战。
2、大数据分析我们应该关注哪两个内容呢?
数据建模结构图
(1)、数据建模
数据建模指的是对现实世界各类数据的抽象组织,确定数据库需管辖的范围、数据的组织形式等直至转化成现实的数据库。 将经过系统分析后抽象出来的概念模型转化为物理模型后,在visio或erwin等工具建立数据库实体以及各实体之间关系的过程(实体一般是表)。
数据建模是一种用于定义和分析数据的要求和其需要的相应支持的信息系统的过程。因此,数据建模的过程中,涉及到的专业数据建模工作,与企业的利益和用户的信息系统密切相关。一般分为三种类型:
①、使用计算机描述一个系统的行为。
②、使用计算机以数学方法描述物体和它们之间的空间关系。
③、应用程序和数据建模是为应用程序确定、记录和实现数据和进程要求的过程。
KPI指标鱼骨图
(2)、KPI 指标
KPI指标是指关键业绩指标,是企业绩效考核的方法之一,其特点是考核指标围绕关键成果领域进行选取,MBA、CEO12篇及EMBA等常见企业管理教育均对关键业绩指标(KPI)的应用及其特点有所介绍。
最常见的关键业绩指标有三种:一是效益类指标,如资产盈利效率、盈利水平等;二是营运类指标,如部门管理费用控制、市场份额等;三是组织类指标,如满意度水平、服务效率等。
(2)数据建模和KPI指标对大数据分析的影响
前者是传统数据仓库下的数据建模,在该数据模型下需要支持上面各种分析方法和分析策略;后者是根据业务目标和业务需求建立的KPI指标体系,对应指标体系的分析模型和分析方法。解决这两个问题可以基本解决大数据分析过程中产生的问题。
3、大数据两大核心:云技术和BI
(1)、云技术
云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。
云技术关系图
云技术(Cloud technology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着物联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
(2)、BI
BI(Business Intelligence)即商务智能,它是一套完整的解决方案,用来将企业中现有的数据进行有效的整合,快速准确地提供报表并提出决策依据,帮助企业做出明智的业务经营决策。
BI商业智能解决方案
把商业智能看成一种解决方案应该比较恰当。商业智能的关键是从许多来自不同的企业运作系统的数据中提取出有用的数据并进行清理,以保证数据的正确性,然后经过抽取(Extraction)、转换(Transformation)和装载(Load),即ETL过程,合并到一个企业级的数据仓库里,从而得到企业数据的一个全局视图,在此基础上利用合适的查询和分析工具、数据挖掘工具、OLAP工具等对其进行分析和处理(这时信息变为辅助决策的知识),最后将知识呈现给管理者,为管理者的决策过程提供数据支持。商业智能产品及解决方案大致可分为数据仓库产品、数据抽取产品、OLAP产品、展示产品、和集成以上几种产品的针对某个应用的整体解决方案等。
(3)、云技术和BI的关系
通过云技术和BI商业智能相结合,从而达到相辅相成互补的作用,离开云技术大数据没有根基和落地可能,离开BI和价值,大数据又将变化为舍本逐末,丢弃关键目标。简单总结就是大数据目标驱动是BI,大数据实施落地式云技术。所以说明大数据两大核心为云技术和BI。
传统的BI分析通过大量的ETL数据抽取和集中化,形成一个完整的数据仓库,而基于大数据的BI分析,可能并没有一个集中化的数据仓库,或者将数据仓库本身也是分布式的了,BI分析的基本方法和思路并没有变化,但是落地到执行的数据存储和数据处理方法却发生了大变化。
六、大数据的实际应用
说起大数据的实际应用,我们举一些我们知道的例子,这样更贴近我们的生活,也可以让我们更容易理解大数据,也能更好的感受大数据的魅力。
1. 梅西百货的实时定价机制。根据需求和库存的情况,该公司基于SAS的系统对多达7300万种货品进行实时调价。
2. Tipp24 AG针对欧洲博彩业构建的下注和预测平台。该公司用KXEN软件来分析数十亿计的交易以及客户的特性,然后通过预测模型对特定用户进行动态的营销活动。这项举措减少了90%的预测模型构建时间。SAP公司正在试图收购KXEN。
3. 沃尔玛的搜索。这家零售业寡头为其网站Walmart.com自行设计了最新的搜索引擎Polaris,利用语义数据进行文本分析、机器学习和同义词挖掘等。根据沃尔玛的说法,语义搜索技术的运用使得在线购物的完成率提升了10%到15%。“对沃尔玛来说,这就意味着数十亿美元的金额。”Laney说。
4. 快餐业的视频分析。该公司通过视频分析等候队列的长度,然后自动变化电子菜单显示的内容。如果队列较长,则显示可以快速供给的食物;如果队列较短,则显示那些利润较高但准备时间相对长的食品。
5. Morton牛排店的品牌认知。当一位顾客开玩笑地通过推特向这家位于芝加哥的牛排连锁店订餐送到纽约Newark机场(他将在一天工作之后抵达该处)时,Morton就开始了自己的社交秀。首先,分析推特数据,发现该顾客是本店的常客,也是推特的常用者。根据客户以往的订单,推测出其所乘的航班,然后派出一位身着燕尾服的侍者为客户提供晚餐。
6. PredPol Inc.预测犯罪机率。PredPol公司通过与洛杉矶和圣克鲁斯的警方以及一群研究人员合作,基于地震预测算法的变体和犯罪数据来预测犯罪发生的几率,可以精确到500平方英尺的范围内。在洛杉矶运用该算法的地区,盗窃罪和暴力犯罪分布下降了33%和21%。
7. Tesco PLC(特易购)提高运营效率。这家超市连锁在其数据仓库中收集了700万部冰箱的数据。通过对这些数据的分析,进行更全面的监控并进行主动的维修以降低整体能耗。
8. American Express(美国运通AmEx)实现商业智能。以往,AmEx只能实现事后诸葛式的报告和滞后的预测。“传统的BI已经无法满足业务发展的需要。”Laney认为。于是,AmEx开始构建真正能够预测忠诚度的模型,基于历史交易数据,用115个变量来进行分析预测。该公司表示,对于澳大利亚将于之后四个月中流失的客户,已经能够识别出其中的24%。
大数据发展趋势
七、大数据发展7大趋势
所以,在政府的明确方向引导,专家学者的共同推动下,现在大数据呈现7大趋势:
1、趋势一:数据的资源化
何为资源化,是指大数据成为企业和社会关注的重要战略资源,并已成为大家争相抢夺的新焦点。因而,企业必须要提前制定大数据营销战略计划,抢占市场先机,这样才能保证立足于商场不败之地。
2、趋势二:与云计算的深度结合
大数据离不开云处理,云处理为大数据提供了弹性可拓展的基础设备,是产生大数据的平台之一。自2013年开始,大数据技术已开始和云计算技术紧密结合,预计未来两者关系将更为密切。除此之外,物联网、移动互联网等新兴计算形态,也将一齐助力大数据革命,让大数据营销发挥出更大的影响力。
3、趋势三:科学理论的突破
随着大数据的快速发展,就像计算机和互联网一样,大数据很有可能是新一轮的技术革命。随之兴起的数据挖掘、机器学习和人工智能等相关技术,可能会改变数据世界里的很多算法和基础理论,实现科学技术上的突破。
4、趋势四:数据科学和数据联盟的成立
未来,数据科学将成为一门专门的学科,被越来越多的人所认知。各大高校将设立专门的数据科学类专业,也会催生一批与之相关的新的就业岗位。与此同时,基于数据这个基础平台,也将建立起跨领域的数据共享平台,之后,数据共享将扩展到企业层面,并且成为未来产业的核心一环。
5、趋势五:数据管理成为核心竞争力
数据管理成为核心竞争力,直接影响财务表现。当“数据资产是企业核心资产”的概念深入人心之后,企业对于数据管理便有了更清晰的界定,将数据管理作为企业核心竞争力,持续发展,战略性规划与运用数据资产,成为企业数据管理的核心。数据资产管理效率与主营业务收入增长率、销售收入增长率显著正相关;此外,对于具有互联网思维的企业而言,数据资产竞争力所占比重为36.8%,数据资产的管理效果将直接影响企业的财务表现。
6、趋势六:数据质量是BI(商业智能)成功的关键
采用自助式商业智能工具进行大数据处理的企业将会脱颖而出。其中要面临的一个挑战是,很多数据源会带来大量低质量数据。想要成功,企业需要理解原始数据与数据分析之间的差距,从而消除低质量数据并通过BI获得更佳决策。
7、趋势七:数据生态系统复合化程度加强
大数据的世界不只是一个单一的、巨大的计算机网络,而是一个由大量活动构件与多元参与者元素所构成的生态系统,终端设备提供商、基础设施提供商、网络服务提供商、网络接入服务提供商、数据服务使能者、数据服务提供商、触点服务、数据服务零售商等等一系列的参与者共同构建的生态系统。而今,这样一套数据生态系统的基本雏形已然形成,接下来的发展将趋向于系统内部角色的细分,也就是市场的细分;系统机制的调整,也就是商业模式的创新;系统结构的调整,也就是竞争环境的调整等等,从而使得数据生态系统复合化程度逐渐增强。
大数据面临的问题
八、大数据发展过程中面临哪些问题?
一个事物的发展,往往伴随着表扬和批评,那么大数据又存在哪些问题,值得我们注意呢?
1、问题一:数据真实性存在质疑。
在这个数据能够快速变现的时代,因为巨大利益的诱惑,数据的真实性通常要打一个“?”,官员要政绩、学界要成果、商界要名利。注水性数据导致硬数据软化。基尼系数、博主粉丝量、复兴指数,为何一直在被质疑?因为越来越多的软件购买信息,弄虚作假,使得大数据也是真假难辨。数据背后的细节,数据源的真实、全面性以及处理过程中的科学性,是大数据走向权威和信任的重要评断标准。
2、问题二:数据样本具有代表性,数据信息不全面。
大家都知道“井底之蛙”的故事吧,这则寓言故事告诉我们看世界的角度不同,眼界也不同。就好像微博不能代表网友的全部意见,而网友更不能代表社会的心声。所以我们在收集数据的时候,因为渠道的不同,往往数据信息也具有这个网站独特的代表性,导致信息不够全面,这样导致大数据分析出来的结果也不是准确的。
3、问题三:数据信息存在相关性误差。
举一个不恰当的例子,一个城市的网页点击率越高,说明这个城市网络形象越好。这显然是不准确的,虽然,数据统计表明网页点击数量和城市网络形象存在某种联系,但负面事件带来的网页量大爆发也是不可忽略的,所以这个结论的科学性大打折扣。利用大数据,基于一定算法和模型对变量元素进行相关性分析,在要素构成简单的情景中可以,在复杂系统中,仅有相关性解释还不够,易走偏。相关性要真正体现在数据之间、数据与真实事件影射的现象之间、真实事件的客观联系上。所以数据信息存在相关性误差。
4、问题四:大数据故事化,不能最终解决问题。
房价已然居高不下,所以一个开发商规划一个房地产项目时,要建立数据中心,圈地造楼,利用大数据哗众取宠。又比如做科研项目时,往往讲究另辟蹊径,思路新颖,借用大数据大张旗鼓,如果大数据脱离实际化,营造一个概念化、故事化,这就使得大数据背离工具化、服务化和实用化的初衷,不能最终解决问题,只不过是一场华丽的泡沫秀,转瞬即逝,应避免大数据故事化。
5、问题五:数据泄露泛滥,采取安全措施尤为重要。
未来几年数据泄露事件的增长率也许会达到100%,除非数据在其源头就能够得到安全保障。可以说,在未来,每个财富500强企业都会面临数据攻击,无论他们是否已经做好安全防范。而所有企业,无论规模大小,都需要重新审视今天的安全定义。在财富500强企业中,超过50%将会设置首席信息安全官这一职位。企业需要从新的角度来确保自身以及客户数据,所有数据在创建之初便需要获得安全保障,而并非在数据保存的最后一个环节,仅仅加强后者的安全措施已被证明于事无补。
6、问题六:大数据存在侵犯隐私隐患,应立法保护隐私。
大数据是由无数个小数据组合而来,这些小数据细分到每个人的身上,既能了解他的行为喜好,也能评估他接下来的行为意识,所以保护大数据的安全隐私是非常有必要的,必要的时候,还可以进行立法,明确数据隐私边界。
大数据的意义
八、发展大数据的意义
2015年9月18日贵州省启动我国首个大数据综合试验区的建设工作,力争通过3至5年的努力,将贵州大数据综合试验区建设成为全国数据汇聚应用新高地、综合治理示范区、产业发展聚集区、创业创新首选地、政策创新先行区。正因如此,贵阳大数据交易平台的建立,可以有效打破大数据信息交流阻碍,汇聚海量高价值数据,挖掘数据价值的最大化。围绕这一目标,贵州省将重点构建“三大体系”,重点打造“七大平台”,实施“十大工程”。