《大数据时代》读书笔记

  大数据开启了一次重大的时代转型。就像望远镜让我们能够感受宇宙,显微镜让我们能够 观测微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源 泉,而更多的改变正蓄势待发……

  大数据的精髓在于我们分析信息时的三个转变,这些转变将改变我们理解和组建社会的方法。

  第一个转变就是,在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和第一个转变就是,在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和 某个特别现象相关的所有数据,而不再依赖于随机采样。 某个特别现象相关的所有数据,而不再依赖于随机采样。“样本=总体”

  例如:从未来的审计视角来看,上市公司应该赋予审计师更大的访问权限,不再局限于交易样本,而是扩展至全部的总分类账和数据库[1]

  第二个改变就是,研究数据如此之多,以至于我们不再热衷于追求精确度。 第二个改变就是,研究数据如此之多,以至于我们不再热衷于追求精确度。

  第三个转变因前两个转变而促成,即我们不再热衷于寻找因果关系,而应该寻找事物之间的相关关系。

  读书到这里,忽然想到应该看政府部门对大数据时代的意见:

  《国务院关于印发促进大数据发展行动纲要的通知》说到主要任务[2]

  (一)加快政府数据开放共享,推动资源整合,提升治理能力。

  

  ……

  

  6.形成大数据产品体系。围绕数据采集、整理、分析、发掘、展现、应用等环节,支持大型通用海量数据存储与管理软件、大数据分析发掘软件、数据可视化软件等软件产品和海量数据存储设备、大数据一体机等硬件产品发展,带动芯片、操作系统等信息技术核心基础产品发展,打造较为健全的大数据产品体系。大力发展与重点行业领域业务流程及数据应用需求深度融合的大数据解决方案。

  

  7.完善大数据产业链。

  

  (三)强化安全保障,提高管理水平,促进健康发展。

大数据时代的思维变革

  数字化带来了数据化,但是数字化无法取代数据化。数字化是把模拟数据变成计算机可读的数据,和数据化有本质上的不同。

让数据发声

  小数据的随机采样,最少的数据获得最多的信息 。采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量 的增加关系不大。的增加关系不大。

  大数据是指不用随机分析法这样的捷径,而大数据是指不用随机分析法这样的捷径,而采用所有数据的方法。

允许不精确

  不是大量数据优于少量数据那么简单了,而是大量数据创造了更好的结果。

  大数据基础上的简单算法比小数据基础上的复杂算法更加有效。

  大数据不仅让我们不再期待精确性,也让我们无法实现精确性。 大数据不仅让我们不再期待精确性,也让我们无法实现精确性。

  例如:麻省理工与通货紧缩预测软件。

  麻省理工学院(MIT)的两位经济学家,阿尔贝托·卡瓦略(Alberto Cavell)和罗伯托·里哥本(Oberto Rigobon)就对此提出了一个大数据方案,那就是接受更混乱的数据。通过一个软件在互联网上收集信息,他们每天可以收集到50万种商品的价格。收集到的数据很混乱,也不是 所有数据都能轻易进行比较。但是把大数据和好的分析法相结合,这个项目在2008年9月雷曼兄弟破产之后马上就发现了通货紧缩趋势,然而那些依赖官方数据的人直到11月份才知道这个情况。

  值得注意的是,错误性并不是大数据本身固有的。它只是我们用来测量、记录和交流数据 的工具的一个缺陷。如果说哪天技术变得完美无缺了,不精确的问题也就不复存在了。错误并不是大数据固有的特性,而是一个亟需我们去处理的现实问题,并且有可能长期存在。

纷繁的数据越多越好

  传统的商业职能,“一个唯一的真理”这种想法已经彻底被改变了。现在不但出现了一种新的认识, 即“一个唯一的真理”的存在是不可能的,而且追求这个唯一的真理是对注意力的分散。要想获得大规模数据带来的好处,混乱应该是一种标准途径,而不应该是竭力避免的。

  例如:在某个记录手机号码的域中输入一串汉字。传统的关系数据库是为数据稀缺的时代设计的,所以能够也需要仔细策划。在那个时代,人们遇到的问题无比清晰,所以数据库被设计用来有 效地回答这些问题。

  据估计,只有5%的数字数据是结构化的且能适用于传统数据库。如果不接受混乱,剩下95%的非结构化数据都无法被利用,比如网页和视频资源。通过接受不精确性,我们打开了一 个从未涉足的世界的窗户。

不是因果关系,而是相关关系

  亚马逊的推荐系统梳理出了有趣的相关关系,但不知道背后的原因。知道是什么就够了,没必要知道为什么。

  相关关系的核心是量化两个数据值之间的数理关系。相关关系强是指当一个数据值增加时,另一个数据值很有可能也会随之增加。我们已经看到过这种很强的相关关系,比如谷歌流感趋势:在一个特定的地理位置,越多的人通过谷歌搜索特定的词条,该地区就有更多的人患 了流感。

  相关关系通过识别有用的关联物来帮助我们分析一个现象,而不是通过揭示其内部的运作机制。

  例如:流程优化后的数据,营业销售套餐销售额、利润的变化…

  中医、西医的对比,就是相关性、允许不精确的体现。

  在哲学界,因果关系是否存在,因果关系与自由意思相对立。

  快速思维模式,用因果关系看待周围世界;

  父母经常告诉孩子,天冷时不戴帽子和手套就会感冒。然而,事实上,感冒和穿戴之间却没有直接的联系。有时,我们在某个餐馆用餐后生病了的话,我们就会自然而然地觉得这是餐馆食物的问题,以后可能就不再去这家餐馆了。事实上,我们肚子痛也许是因为其他的传染途径,比如和患者握过手之类的。然而,我们的快速思维模式使我们直接将其归于任何我们能在第一时间想起来的因果关系,因此,这经常导致我们做出错误的决定。

  

  与常识相反,经常凭借直觉而来的因果关系并没有帮助我们加深对这个世界的理解。很多时候,这种认知捷径只是给了我们一种自己已经理解的错觉,但实际上,我们因此完全陷入了理解误区之中。就像采样是我们无法处理全部数据时的捷径一样,这种找因果关系的方法也是我们大脑用来避免辛苦思考的捷径。

  慢性思维模式

  即使是我们用 来发现因果关系的第二种思维方式——慢性思维,也将因为大数据之间的相关关系迎来大的改变。

  相关关系分析本身意义重大,同时它也为研究因果关系奠定了基础。通过找出可能相关的 事物,我们可以在此基础上进行进一步的因果关系分析,如果存在因果关系的话,我们再进一 步找出原因。这种便捷的机制通过严格的实验降低了因果分析的成本。我们也可以从相互联系 中找到一些重要的变量,这些变量可以用到验证因果关系的实验中去。

大数据时代的商业变革

数据化:一切皆可“量化”

  量化一切,数据化的核心。计量和记录一起促成了数据的诞生,它们是数据化最早的根基。

  复式记账法通常被看成是会计业和金融业不断发展的成果。事实上,在数据利用的推进过程中,它也是一个里程碑似的存在。它的出现实现了相关账户信息的“分门别类”记录。 它建立在一系列记录数据的规则之上,也是最早的信息记录标准化的例子,使得会计们能够读 懂彼此的账本。复式记账法可以使查询每个账户的盈亏情况变得简单容易。它会提供交易的记 账线索,这样就更容易找到需要的数据。它的设计理念中包含了“纠错”的思想,这也是今天的 技术人才们应该学习的。

  数据化内容:

数据化内容 大数据先锋
文字变成数据 谷歌的数字图书馆
方位变成数据 多效地理定位与UPS的最佳行车路径
沟通变成数据 微博关联与疫苗接种

  有了大数据的帮助,我们不会再将世界看作 有了大数据的帮助,我们不会再将世界看作 是一连串我们认为或是自然或是社会现象的事件,我们会意识到本质上世界是由信息构成 是一连串我们认为或是自然或是社会现象的事件,我们会意识到本质上世界是由信息构成 的。

  将世界看作信息,看作可以理解的数据的海洋,为我们提供了一个从未有过的审视现 将世界看作信息,看作可以理解的数据的海洋,为我们提供了一个从未有过的审视现 实的视角。它是一种可以渗透到所有生活领域的世界观。

价值:“取之不尽,用之不竭”的数据创新

数据创新 案例
1:数据的再利用 移动运营商与数据再利用
2:重组数据 丹麦癌症协会:手机是否增加致癌率
3:可扩展数据 谷歌街景与GPS采集
4:数据的折旧值
5:数据废气 微软与谷歌的拼写检查
6:开放数据 FlyOnTime的航班时间预测

  其中,数据废气和开发数据需要重新认识:

  数据废气是许多电脑化服务背后的机制,如语音识别、垃圾邮件过滤、翻译等。当用户指 出语音识别程序误解了他们的意思时,他们实际上有效地“训练”了这个系统,让它变得更好。

  很多企业都开始设计他们的系统,以这种方式收集和使用信息。

例如:大数据在业务流程系统上的应用:

流程流转数据、待办处理数据、访问操作日志;

如果没有访问操作日志,可以从Apache HTTP日志中获取,每次的URL。

BPM做为粘合剂,将为大数据收集数据、整理数据提供便捷的方法,也为大数据分析提供了一个纬度。[3]

  政府才是大规模信息的原始采集者,并且还在与私营企业竞争他们所控制的大量数据。让“开放政府数据”的倡议响彻全球。

  数据价值的关键是看似无限的再利用,即它的潜在价值。收集信息固然至关重要,但还远 远不够,因为大部分的数据价值在于它的使用,而不是占有本身。

角色定位:数据、技术与思维的三足鼎立

  根据所提供价值的不同来源,分别出现了三种大数据公司。这三种来源是指:数据本身、 技能与思维。

  第一种是基于数据本身的公司。 第一种是基于数据本身的公司。这些公司拥有大量数据或者至少可以收集到大量数据,却 不一定有从数据中提取价值或者用数据催生创新思想的技能。最好的例子就是Twitter,它拥有 海量数据这一点是毫无疑问的,但是它的数据都通过两个独立的公司授权给别人使用。

  第二种是基于技能的公司。 第二种是基于技能的公司。它们通常是咨询公司、技术供应商或者分析公司。它们掌握了 专业技能但并不一定拥有数据或提出数据创新性用途的才能。比方说,沃尔玛和Pop-Tarts这两 个零售商就是借助天睿公司(Teradata)的分析来获得营销点子,天睿就是一家大数据分析公 司。

  第三种是基于思维的公司。 第三种是基于思维的公司。皮特·华登(Pete Warden),Jetpac的联合创始人,就是通过想 法获得价值的一个例子。Jetpac通过用户分享到网上的旅行照片来为人们推荐下次旅行的目的 地。对于某些公司来说,数据和技能并不是成功的关键。让这些公司脱颖而出的是其创始人和 员工的创新思维,他们有怎样挖掘数据的新价值的独特想法。

  结合实际工作,典型专业化大数据运营公司案例如图所示。

大数据时代的管理变革

风险:让数据主宰一切的隐忧 ,无处不在的“第三只眼”,谨防数据独裁。

  大数据大大地威胁到了我们的隐私和自由,这都是大数据带来的新威胁。但是与此同时, 它也加剧了一个旧威胁:过于依赖数据,而数据远远没有我们所想的那么可靠。

  美国军方在越战时对数据的使用、滥用和误用给我们提了一个醒,在由“小数据”时代向大 数据时代转变的过程中,我们对信息的一些局限性必须给予高度的重视。数据的质量可能会很 差;可能是不客观的;可能存在分析错误或者具有误导性;更糟糕的是,数据可能根本达不到 量化它的目的。

责任与自由并举的信息管理,

  一场管理规范的变革

  

  我们在生产和信息交流方式上的变革必然会引发自我管理所用规范的变革。同时,这些变革也会带动社会需要维护的核心价值观的转变。

  可是,变革并不止于规范。大数据时代,对原有规范的修修补补已经满足不了需要,也不足以抑制大数据带来的风险 ——我们需要全新的制度规范。

  将责任从民众转移到数据使用者很有意义,也存在充分的理由,因为数据使用者比任何人 都明白他们想要如何利用数据。除了管理上的转变,即从个人许可到数据使用者承担相应责任的转变,我们也需要发明并推行新技术方式来促进隐私保护。一个创新途径就是“差别隐私”:故意将数据模糊处理,促使 对大数据库的查询不能显示精确的结果,而只有相近的结果。

  在自由与隐私的范畴里,还需要大数据审计和大数据监督。

  这一切都意味着,一个员工是否对公司有贡献的判断标准改变了。这也就意味着,你要学的东西、你要了解的人,你要为你的 职业生涯所做的准备都改变了。

  大数据时代,名副其实的“信息社会”。

[1] 《详解审计工作中如何利用大数据》 百度.文库 雪姬 2014.05

[2] 《国务院关于印发促进大数据发展行动纲要的通知》 中国政府网 国发〔2015〕50号

[3]《探讨BPM与大数据的关系一数据驱动BPM 》 肖永威 2016.05

时间: 06-10

《大数据时代》读书笔记的相关文章

移动大数据时代最IN编程语言必读书单

移动大数据时代最IN编程语言必读书单 这是一个快速更迭,快鱼吃慢鱼的时代.从IT 时代演变成 DT 时代,再到现在的智能时代.急速革新的各种新技术.新工具.新平台,需要程序员掌握良好的编程思想和学习方法,不断学习新技术.补充新知识,才能努力跟上时代的步伐,找到自我实现的际遇.读书依然是我们获取知识的最方便和有效的途径之一.既要读经典,也要读新书,前者让你沉淀,发现正确的方法,后者让你紧跟前沿,掌握最新的技术.可你是不是担心,不能找到真正值得读的新书而浪费时间?在此,我们汇总了当下最In的编程语言

LinkedIn高级分析师王益:大数据时代的理想主义和现实主义(图灵访谈)

转自:http://www.ituring.com.cn/article/75445 王益,LinkedIn高级分析师.他曾在腾讯担任广告算法和策略的技术总监,在此期间他发明了并行机器学习系统“孔雀”,它可以从数十亿的用户行为或文本数据中学习到上百万的潜在主题,该系统被应用在腾讯可计算广告业务中.在此之前,他在Google担任软件工程师,并开发了一个分布式机器学习工具,这个工具让他获得了2008年的“Google APAC 创新奖”.王益曾在清华大学和香港城市大学学习,并取得了清华大学机器学习和

第29本:《大数据时代》

第29本:<大数据时代> 最近大数据火了,还经常听到Hadoop和Mapreduce,我经常勘探地震资料处 理后的地震数据体,动不动几十个G,算不算大数据?好像与现在说的这个大数据概念相差太远,就一直想了解一下这个大数据到底是什么含义.从SUN那里借来 <大数据时代>读了一读,明白了不少基本概念和示例,与我们的数GB的地震数据体不是一回事,想把大数据应用于石油行业,看来还得琢磨琢磨. <大数据时代>这本书的章节划分非常清晰,主要讲了思维.商业和管理方面的变革,每一章有一

计算机网络管理基础服务安装+大数据时代的网络运维

使用yum方式完成服务安装 ___By Nemo(仅供参考) Notice:Apache 安装好之后,我又改回桥接模式用rpm安装了. 首先,让你的虚拟机上个网,所以需要把网卡设置成nat模式,在宿主机上先拨个号,设好后重启linux系统. 重启后,打开firefox,看是不是能上网.Ok,但nat模式默认的ip是动态分配的,咱们得按照老师的要求把设成你静态的学生牌号.所以咱们得这么设一下!应该通过vmware虚拟机中-->Edit(编 缉)-->Virtual Net Editor(虚拟网络

读&lt;&lt;大数据时代&gt;&gt;的一些感想

第一次听说<<大数据时代>>这本书,是在网上看到的央视搞的一个2013中国好书评选活动推荐的25本"中国好书"的榜单中看到的.然后迅速上豆瓣上查看了一下对该书的评价,一看非常高,再加上央视的推荐是从2013在中国出版的40册图书中选出25本,可以说是精华了.果断定了一本,花了三天时间读完了.   大数据这个名词或者说概念从被提出开始,经过短短几年的发展,已经传的沸沸扬扬了,经常见诸媒体上.好像哪家媒体的科技板块每天不弄一些这样的新闻条,它就显得不够档次一样.这是

当不再炒作大数据的时候,大数据时代就真的来了

从2015年开始,大数据就已经被移出了Gartner的新兴技术炒作曲线."Big Data"(大数据)一词最早于2011年8月出现在Gartner新兴技术炒作曲线中,当时Gartner预计大数据技术需要2年到5年才能进入企业的实际生产型应用中.从那以后,大数据就迅速被市场热炒,最终在2015年彻底在Gartner新兴技术炒作曲线中消失. 进入2016年,大数据已经进入了实际的企业生产应用,在切实推动企业向数字化转型.另一家市场调查公司IDC则强调,在未来5年中,全球的数据驱动型企业将获

大数据时代新闻采编人员职业能力培训

原文  http://datameng.com/info/2014/03/big-data-xinwen-caibian/ 据统计,到2013年,全世界储存的信息如果记录在光盘上,再把这些光盘叠加起来,高度等于从地球到月球的距离.美国互联网数据中心指出,目前世界 上90%以上的数据是近几年才产生的.互联网上的数据每年将增加50%,每两年翻一番.因此有学者认为,人类进入了大数据时代.一般意义上,大数据是指无 法在可容忍的时间内用传统IT技术和软硬件工具对其进行感知.获取.管理.处理和服务的数据集合

决胜大数据时代:Hadoop&amp;Yarn&amp;Spark企业级最佳实践(8天完整版脱产式培训版本)

Hadoop.Yarn.Spark是企业构建生产环境下大数据中心的关键技术,也是大数据处理的核心技术,是每个云计算大数据工程师必修课. 课程简介 大数据时代的精髓技术在于Hadoop.Yarn.Spark,是大数据时代公司和个人必须掌握和使用的核心内容. Hadoop.Yarn.Spark是Yahoo!.阿里淘宝等公司公认的大数据时代的三大核心技术,是大数据处理的灵魂,是云计算大数据时代的技术命脉之所在,以Hadoop.Yarn.Spark为基石构建起来云计算大数据中心广泛运行于Yahoo!.阿

柯南君:看大数据时代下的IT架构(5)消息队列之RabbitMQ--案例(Work Queues起航)

一.回顾 让我们回顾一下,在上几章里都讲了什么?总结如下: <柯南君:看大数据时代下的IT架构(1)业界消息队列对比> <柯南君:看大数据时代下的IT架构(2)消息队列之RabbitMQ-基础概念详细介绍> <柯南君:看大数据时代下的IT架构(3)消息队列之RabbitMQ-安装.配置与监控> <柯南君:看大数据时代下的IT架构(4)消息队列之RabbitMQ--案例(Helloword起航)> 二.Work Queues(using the Java Cl