• banner1
  • banner2
  • banner3
当前位置:主页 > 产业新闻 >

《大数据》精华连载(1):大数据概念与应用——之“大”

来源:http://www.zzsswlkj.com 责任编辑:环亚ag88 更新日期:2019-03-16 09:25

  《大数据》是知名教材《云计算》的姊妹篇,是中国大数据专家委员会刘鹏教授联合国内多位专家历时两年的心血之作。本书系统地介绍了大数据的理论知识和实战应用,包括大数据采集与预处理、数据挖掘算法和工具和大数据可视化等,并深度剖析了大数据在互联网、商业和典型行业的应用。

  本书配套的大数据实验体系已经在郑州大学、成都理工大学、郑州升达经贸管理学院、信阳师范学院、西京学院、镇江高等职业技术学校、软通动力等十多所典型用户单位落地实施。自出版以来,《大数据》广受好评,并相继推出了全套PPT。

  大数据的出现开启了大规模生产、分享和应用数据的时代,能让我们通过对海量数据进行分析,以一种前所未有的方式获得全新的产品、服务或独到的见解,最终形成变革之力,实现重大的时代转型。这就好比当我们感受浩瀚无垠的宇宙时,用望远镜只能看到宇宙的冰山一角,但更广阔的区域都在表面之后,等待着进一步的探索。云计算正是大数据探索过程中的动力源泉,产品经理面试问题:你最喜欢的一款,通过对大数据进行检索、分析、挖掘、研判,可以使得决策更为精准,释放出数据背后隐藏的价值。大数据正在改变我们的生活及理解世界的方式,正在成为新发明和新服务的源泉,而更多的改变正蓄势待发……

  由于计量、记录、预测生产生活过程的需要,人类对数据探寻的脚步从未停歇,从原始数据的出现,到科学数据的形成,再到大数据的诞生,走过了漫漫长路。数据同人类相伴而生,人类有“与生俱来的数据偏好”;“人类的认识发展史就是对数据的认识史”[1]。

  时至今日,“数据”变身“大数据”,“开启了一次重大的时代转型”[2]。带着种种好奇和疑问,本人利用两个月几乎全部的业余时间,浏览了国内有关大数据的权威著作和文章,对大数据的特征、来源、流向、价值、意义、趋势、前景等问题,囫囵吞枣,略知一二。

  (1)2008年9 月,美国《自然》(Nature)杂志专刊——The next google,第一次正式提出“大数据”概念。

  (2)2011年2月1日,《科学》(Science)杂志专刊——Dealing with data,通过社会调查的方式,第一次综合分析了大数据对人们生活造成的影响,详细描述了人类面临的“数据困境”。

  此外,大数据科学家Rauser、大数据分析师Merv Ddrian等人从不同的视角,分别对大数据的内涵与外延进行具体表述。但至今,学界仍无统一的公认的定义和解释。2015年8月31日,国务院《促进大数据发展行动纲要》指出:“大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。”《大数据白皮书2016》称:“大数据是新资源、新技术和新理念的混合体。从资源视角看,大数据是新资源,体现了一种全新的资源观;从技术视角看,大数据代表了新一代数据管理与分析技术;从理念的视角看,大数据打开了一种全新的思维角度。”

  无论学界和政府组织如何定义“大数据”概念,大数据的内在特质始终就在那里。当前,业界公认的大数据有“4V特征,即:Volume(体量大)、Variety(种类多)、Velocity(速度快)和Value(价值高)。

  大数据,顾名思义“大”,大是其主要特征。从文字记录出现到本世纪初,人类累积生成的数据总量,仅相当于现在全世界一两天创造的数据量,“一天等于两千年”。根据IDC(国际数据资讯公司)的报告预测,2013年全球存储的数据预计达1.2泽字节,如果将其存储到只读光盘上分成5堆,每一堆可以延伸至月球。从2013年至2020年,人类的数据规模将扩大50倍,每年产生的数据量将增长到44万亿GB,相当于美国国家图书馆数据量的数百万倍,且每18个月翻一番。

  大数据与传统数据相比,数据来源广、维度多、类型杂,各种机器仪表在自动产生数据的同时,人自身的生活行为也在不断创造数据;不仅有企业组织内部的业务数据,还有海量相关的外部数据。除数字、符号等结构化数据,更有大量包括网络日志、音频、视频、图片、地理位置信息等非结构化数据,且占数据总量的90%以上。

  随着现代感测、互联网、计算机技术的发展,数据生成、储存、分析、处理的速度远远超出人们的想象力,这是大数据区别于传统数据或小数据的显著特征。例如,欧洲核子研究中心CERN的离子对撞机每秒运行生成的数据高达40TB;1台波音喷气发动机每30分钟就会产生10TB的运行数据;Facebook每天有18亿照片上传或被传播。过去历经10年破译的人体基因30亿对碱基数据,现在仅需15分钟即可完成。2016年德国法兰克福国际超算大会(ISC)公布的全球超级计算机500强榜单中,由国家超级计算无锡中心研制的“神威·太湖之光”夺得第一,该系统峰值性能12.5亿亿次/秒,其1分钟的计算能力,相当于全球70亿人同时用计算器不间断计算32年。

  大数据有巨大的潜在价值,但同其呈几何指数爆发式增长相比,某一对象或模块数据的价值密度较低,这无疑给我们开发海量数据增加了难度和成本。比如,一天24小时的监控录像,可用的关键数据也许仅为1—2秒钟。每天数十亿的搜索申请中,只有少数固定词条的搜索量会对某些分析研究有用处。

  存储成本的下降、计算速度的提高和人工智能水平的提升,是全球数据高速增长的重要支撑。下面将从计算、存储、智能这三大方面进行详细阐述,如图1-1所示。

  在云计算出现之前,数据存储的成本是非常高的,例如,公司要建设网站,需要购置和部署服务器,安排技术人员维护服务器,保证数据存储的安全性和数据传输的畅通性,还会定期清理数据,腾出空间以便存储新的数据,机房整体的人力和管理成本都很高。

  云计算出现后,数据存储服务衍生出了新的商业模式,数据中心的出现降低了公司的计算和存储成本,例如,公司现在要建设网站,不需要去购买服务器,不需要去雇用技术人员维护服务器,可以通过租用硬件设备的方式解决问题。存储成本的下降,也改变了大家对数据的看法,更加愿意把1年、2年甚至更久远的历史数据保存下来,有了历史数据的沉淀,才可以通过对比,发现数据之间的关联和价值。正是由于存储成本的下降,才能为大数据搭建最好的基础设施。

  分布式系统基础架构Hadoop的出现,为大数据带来了新的曙光,HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了并行计算,从而大大提高了计算效率。同时,Spark、Storm、Impala等各种各样的技术进入人们的视野。

  海量数据从原始数据源到产生价值,期间会经过存储、清洗、挖掘、分析等多个环节,如果计算速度不够快,很多事情是无法实现的。所以,在大数据的发展过程中,计算速度是非常关键的因素。

  大数据带来的最大价值就是“智慧”,今天我们能看到的谷歌AlphaGo大胜世界围棋冠军李世石、阿里云小Ai成功预测出《我是歌手》的总决赛歌王、iPhone上智能化语音机器人Siri、微信上与大家聊天的微软小冰等,背后都是由海量数据来进行支撑的。换句话说,大数据让机器变得有智慧,同时人工智能进一步提升了处理和理解数据的能力。

  在《大数据时代》一书中,将大数据及大数据时代的特征概括为:①要全体,不要抽样——“我们需要的是所有数据,样本=总体”。②要混杂,不要精确——“要学会拥抱混乱,允许不精确”。③要相关,不要因果——“知道是什么就够了,没必要知道为什么”[2]。

  大数据扑面而来,令常人不知所措。纵观人类科技发展史,似乎没有哪一次科技革命像大数据这样,从酝酿萌动到蔓延爆发,仅仅经历短短的数年时间。大数据作为一种技术、工具、方法,对现代社会生活的影响和冲击日益凸显,在某些领域甚至是革命性与颠覆式的。联系自己所学专业,结合本职工作性质,试就大数据给人们认识与思维方式带来的影响及变化,谈点粗浅的学习体会。

  用数据来说话。过去,人们习惯于“凭经验办事”,这是数据和信息有限条件下的无奈之举。而今,我们必须学会“用数据说话”,正如美国著名管理学家爱德华·戴明所言:“我们信靠上帝。除了上帝,任何人都必须用数据来说话。”之所以要用数据来说线)有数据可说

  在大数据时代,“万物皆数”,“量化一切”,“一切都将被数据化”。人类生活在一个海量、动态、多样的数据世界中,数据无处不在、无时不有、无人不用,数据就像阳光、空气、水分一样常见,好比放大镜、望远镜、显微镜那般重要。“过去,阿基米德说:给我支点,我就能撬动地球;现在,每一个地球人都敢说:给我数据,就可以复制宇宙!”[1]

  大数据中的“数据”真实可靠,它实质上是表征事物现象的一种符号语言和逻辑关系,其可靠性的数理哲学基础是世界同构原理。世界具有物质统一性,统一的世界中的一切事物都存在着时空一致性的同构关系。这意味着任何事物的属性和规律,只要通过适当编码,均可以通过统一的数字信号表达出来。换言之,一个事物的属性和运动规律可以通过适当编码表现在数据世界中,一个事物与其他事物的关系也可以通过适当编码反映在数据世界中。认识主体获得的不是对象本身的绝对映像,而是从对象中抽象出来的描述对象运动序列的数据。因此,大数据不过是反映人类接触到的外部事物的同构关系的数字模型而已,是客观世界中事物的多样性和关联性在计算机中的表达,且具有实时性、精确性、全面性、可逆性等特质。大数据专家克里斯·安德森曾指出:“现在已经是一个有海量数据的时代,只要有足够的数据,数据就能说明问题了,如果你有一拍字节的数据,一切就迎刃而解了。”

  因此,“用数据说话”、“让数据发声”,已成为人类认知世界的一种全新方法。世界是物质,物质是数据的,数据正在重新定义世界的物质本原,并赋予“实事求是”新的时代内涵。我们必须善于用数据说话,用数据决策,用数据管理,用数据生活。

  风马牛可相及。在大数据背景下,因海量无限、包罗万象的数据存在,让许多看似毫不相干的现象之间发生一定的关联,使人们能够更简捷、更清晰地认知事物和把握局势。大数据的巨大潜能与作用现在难以进行估量,但揭示事物的相关关系无疑是其真正的价值所在。“相关关系可以帮助我们捕捉现在和预测未来”,“建立在相关关系分析法基础上的预测是大数据的核心”。相关关系的实质[2]是量化两个数值之间的数理关系,918.com,相关关系强是指当一个数据值变化时,另一个数据值很有可能也会随之发生有规律的变化;相关关系弱则意味着一个数据值变化时,另一个数据值不会因而发生有规律的变化。人们常用“风马牛不相及”这一成语,来形容两件八竿子打不着的事情,现如今由于大数据、计算机、人工智能技术的发展,“风马牛可相及”的现象完全可能发生。

  现实生活中,人们总喜欢问“为什么?”不仅“知其然”,还要“知其所以然”,执着于寻求问题背后的因果关系。在大数据时代,事物联系的普遍性与复杂性变得越来越清晰,就某一现象而言,因果关系只是相对的,既没有绝对的“因”,更不会有永恒的“果”,也许存在着其他形式的联系,即“相关关系”。因此,我们大可不必纠结于“原因”,在“因果关系”上耗费过多精力。其实,在很多时候和情境下,相关关系比因果关系更简单实用,人们知道“是什么”就够了,没有必要明白“为什么”。著名大数据专家迈尔-舍恩伯格认为,“要相关,不要因果”是大数据时代的一个显著特征,“相关系数很有用,不仅仅是因为它为我们提供新的视角,而且提供的视角都很清晰。而我们一旦把因果关系考虑进来,这些视角就有可能被蒙蔽。”“通过去探求‘是什么’而不是‘为什么’,相关关系帮助我们更好地了解了这个世界。”

  沃尔玛超市的管理人员在分析销售数据时,发现一个难以理解的现象:有时候,“啤酒”与“尿布”两件看上去毫无关系的商品,会经常出现在同一个购物篮子中。这种独特的销售现象引起高管的重视,后经进一步调查发现这种现象发生在年轻父亲身上。在美国有婴儿的家庭中,一般是母亲在家里照顾婴儿,年轻的父亲去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒,于是就会出现啤酒与尿布这两件看上去不相干的商品,经常会出现在同一个购物篮中的现象。如果这位年轻的父亲在卖场只能买到两件商品之一,那他很可能放弃购物而到另一家商店,直至可以一次同时买到啤酒与尿布为止。沃尔玛发现这一独特的现象后,开始在卖场尝试将啤酒与尿布摆放在相同的区域,让年轻的父亲可以同时找到这两件商品,并很快地完成购物。这一改变,既方便了年轻父亲的购物,又增加了商场的销售收入。

  谷歌的工程师们很早就发现,某些搜索词条有助于了解流感疫情,例如:在流感季节,与流感有关的搜索会明显增加;到了过敏季节,与过敏有关的搜索会显著上升;而到了夏季,与晒伤有关的搜素又会大幅增加。这不难理解,一般的人没有什么生病的症状,是不会主动去查那些与疾病相关的内容。于是,2008年谷歌推出了“谷歌流感趋势”(GFT),这一工具根据汇总的谷歌搜索数据,近乎实时地对全球当前的流行疫情进行估测,但当时并没有引起太多人的关注。2009年在H1N1爆发几周前,谷歌公司成功地预测了H1N1在全美范围的传播,甚至具体到特定的地区和州,而且判断非常及时,令公共卫生官员和计算机专家们倍感震惊。人们的搜索行为本身与流感疫情并无因果关系,但谷歌通过用户搜索日志的汇总信息,及时准确的预测流感疫情的爆发,这就是相关关系的巨大力量。

  惊喜无处不在。大数据是一个信息和知识的富矿,蕴藏着无限的商机与巨大的收益,惊喜无处不在。谷歌、亚马逊、脸谱、阿里巴巴、腾讯、京东等领军企业的成功实践和辉煌业绩,就是最生动、最有力的例证。大数据作为一种新兴的生产要素、企业资本、社会财富,可谓取之不尽,用之不竭,而且能够重复使用,循环利用。无论任何组织或个人,只要去深度分析和挖掘,总会有意想不到的收获。美国德克萨斯大学针对数据有效性的一项研究表明,企业通过提升对自身数据的使用率和数据质量,能够显著提高企业的经营表现。如果企业数据使用率提升10%,零售、咨询服务、航空等行业人均产出将分别提高49%、39%和21%。财富1000强中的中位数企业,数据使用率提高10%能够每年增加20亿美元的营业收入,带来其人均产出提升约14%。而数据质量的提升,将会对企业产生更为显著的影响,如果企业数据质量提升10%,公用事业、航空、电信、石化等行业受益最为明显,净资产收益率提升幅度将会超过200%,财富1000强中位数企业净资产收益率提升幅度约为76%。

  大数据不仅有商机与收益,而且是“未来的石油”,将成为社会创新发展的动力源泉。大数据正在推动科学研究范式、产业发展模式、社会组织形式、国家治理方式的转型与变革。“数据可以治国,还可以强国。”“得数据者,得天下。”[4]大数据在中国大有可为,中国是一个人口大国、制造业大国、互联网大国,这些都是最活跃的数据产生主体。根据权威预测,2020年中国在整个数字宇宙中占比可达到18%,数字规模将超过美国,位居世界第一。令人可喜的是,党和政府已就大数据做出战略部署,制定了发展规划和行动纲要,我们可以和发达国家在同一起跑线上赛跑,并可能实现弯道超越。

  最后,借用《大数据时代》一书作者迈尔-舍恩伯格、库克耶的警示作结语:对于大数据时代,如果你是一个人,你拒绝的话,可能失去生命;如果是一个国家的话,可能会失去这个国家的未来,失去一代人的未来。

  声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。

Copyright © 2013 环亚ag88,环亚娱乐ag88真人版,环亚在线娱乐,环亚娱乐手机下载 All Rights Reserved 网站地图