文 唐骋华 图 受访者提供

      “大数据”的故事 

      什么是“大数据”?意义是什么?涂子沛讲了个故事。 

      流感是全球性传染病,医务人员一直在寻找它的爆发周期和特点。1999年,通过对全美2万多个药店的销售数据进行挖掘,科研人员发现,在医院大规模收治流感病人的两周之前,药店会遇到感冒药的销售高峰。其原因是,人们患上感冒后,通常先自己买药,直至症状加重才到医院求治。紧接着,哈佛大学的教授又发现,由于儿童的抵抗力弱,他们的就诊高峰预示了流感潮,时间点则在高峰后的一个月。据此,匹兹堡大学研发了“疾病爆发实时监控系统”。2002年底起在全美推广。 

      “这种方法叫做Data Mining,即数据挖掘。”涂子沛说。 

      “数据挖掘”正是大数据发展的重要环节。上世纪90年代,信息管理系统普及,各行各业产生了大量的数据,并记录在各自的数据库里。问题随之而来:如何从这些独立的信息系统中提取、整合有价值的数据,实现从数据到信息到知识最后到利润的转化呢?科学家们提出了“数据仓库”的概念,通过联机分析,使分立的数据库相联。“人们通过分析和建模,在海量的数据中找出其模式和微妙的关系,以揭示过去的规律、预测未来的趋势。” 

      最早运用数据挖掘技术的是沃尔玛公司。在一次例行的数据分析后,研究人员惊讶地发现:尿布和啤酒往往被一起购买。这怎么回事?经调查,原来年轻的爸爸到超市购买尿布后,有近4成会顺便买点啤酒犒劳自己。沃尔玛随即将尿布和啤酒捆绑销售,销量双双增加。 

      当然,大数据的魅力远不止那些实用而有趣的案例。随着我们迈入信息时代,大到政府规划、企业决策,小到日常生活中的点点滴滴,都离不开对数据的搜集、整理和分析。 

      这些,诚如涂子沛在《大数据》中表达的,又和公民的知情权、公民意识、信息公开等紧密相连。于是,他从美国人对公共信息的曲折认识谈起,再将目光投射回中国,观照悄然来临的“大数据时代”。这本书的副标题是耐人寻味的:“正在到来的数据革命,以及它如何改变政府、商业与我们的生活”;扉页上则写道:“一个真正的信息社会,首先是一个公民社会。”

      大数据,大价值 

      “过去,我们是选择记录什么;未来,我们是选择不记录什么” 

      生活周刊:您是什么时候注意到“大数据”这个概念的,为什么? 

      涂子沛:我对大数据的关注与思考源于日常工作。2010年前后,我正在美国从事数据仓库的开发和设计,为美国政府的某些部门提供海量数据管理、分析的解决方案。这是我在美国毕业之后的第一份工作。有趣的是,十几年前,我在中国的第一份工作是数据库程序员。从“数据库”变成了“数据仓库”,这正是我们从小数据时代进入大数据时代的明证。所以也可以说,关注“大数据”,是因为自己长期从事数据工作、技术工作的敏感性,而恰恰在2010年后,“大数据”现象引起了全球的关注和讨论。 

      生活周刊:就是说您最早体悟到“大数据”的重要性源于在美国工作和生活的实际经验,请谈一谈“大数据”这个概念在美国是如何诞生、发展的? 

      涂子沛:在美国,上个世纪80年代就有人提出“大数据”的概念了,到2000年,由于信息系统的累积作用,人类的数据开始大量增多,有不少企业的数据级进入到“太”(terabyte)的级别,学术界就开始尝试给多少为“大”进行定义。起初流行的定义是“200太就是大数据”,但没想到,随后数据更呈加速度的增长。 

      2004年后脸谱(facebook)、推特(twitter)等新媒体出现了,从那以后,不仅是信息系统在收集数据,每个人都通过发微博贡献数据。这种以微博为代表的新数据,因为大小不一、没有固定的结构,被称为非结构化数据。非结构化数据开始爆炸,现在已经占了人类全部数据的75%到80%。例如,伊利诺伊大学的Kalev Leetaru发现,过去50年,《纽约时报》一共产生了30亿单词,而如今推特每一天都产生80亿单词!

      这种惊人的数据量每天都在产生,慢慢的,我们变得习以为常,对大数据的理解,也在发生变化。如今,大数据之“大”,更多强调的是“大价值”,因为我们人类使用、分析数据能力的增强,能够从数据当中发现新的知识和价值。 

      生活周刊:所以大数据不只是指海量的信息,更强调的是人类对信息的筛选、处理。 

      涂子沛:对,信息化的本质是什么?就是一切信息都以数据的形式和格式被记录,也可以说是“数据化”——越来越多的事情在以数据的形式被记录。人类的数据记录能力越来越强——过去,无论是工作还是生活,我们是选择记录什么;现在和未来,我们是选择不记录什么。这有本质的区别。理解这一点,才能理解大数据。 

      生活的改变,发展的瓶颈 

      “在应用层面,我们已经和世界同步,主要的差距在于文化和态度” 

      生活周刊:您一直在强调大数据时代来临,既然是一个时代,那我们的生活方式会发生怎样的改变? 

      涂子沛:从大的方面说,大数据时代的到来,是人类社会由信息时代、知识时代向智能时代迈进的标志。我们收集、使用的数据越多、数据越开放,对未知世界的了解就会越深刻,人与人之间的合作、各项工作、任务之间的对接就会更精确,我们的生活也会越智能,整个国家和社会的运行成本也会越低。 

      说得微观一点,在小数据时代,个人的行为很难被研究,因为测不准,但大数据好像显微镜一样,可以把人的行为在群体的层面上放大。计算机可以根据这些记录,自动处理,向你推送信息。在这个时代,机器可能比人还要了解人。由于个人的行为以前所未有的力度被记录,个人能够在数据海洋当中被识别出来。这就为企业开拓、发现新的市场和顾客,给精准营销提供了可能。 

      生活周刊:那么制度层面呢?在《大数据》这本书里,您更多地是从政府运行的角度探讨大数据的意义及其对现状的改善。 

      涂子沛:的确,大数据将改变政府的运行方式,数据将成为政府决策和创新的基础、成为社会管理科学化的核心,科学发展的落脚点就是数据。具体而言,个人经验、长官意志将被系统数据和集体智慧所取代,深入群众、实地考察的传统工作方法仍有作用,但对决策来说,系统采集的数据、分析的结果更为重要。此外,数据开放也将促进透明行政。例如,如果能开放所有的交通事故数据,就会提高人们的警觉,改善城市的交通安全。又例如,如果能开放历年的高考数据,就能帮助考生更好地填报志愿。

      生活周刊:在书中您介绍美国的经验比较多,但既然是一种借鉴,那么回过头来,以您的观察,在中国,大数据的发展瓶颈在哪里? 

      涂子沛:我在中美两个国家都从事过数据工作,这些经历让我能找到一个很好的角度观察、体验、分析两个不同国家如何解决、处理相同的问题。美国人很重视数据,把数据作为管理和决策的基础。“除了上帝,任何人都必须用数据来说话”,就是很好的写照。 

      和美国相比,中国在数据收集、使用和管理的各个方面,都存在差距。但我发现,最大的差距是意识和态度。我们长期重定性、轻定量、重观点、轻数据。在现实生活中,数据也往往成为一个任人打扮的“小姑娘”,得不到应有的尊重,数据的质量不高、公信力严重不足。其实在信息技术的应用层面,我们几乎已经和世界同步,收集数据、使用数据、开放数据的各项技术,都是成熟的。主要的差距在于文化和态度。 

      生活周刊:您认为造成这一状况的原因是什么?涂子沛:和西方文明相比,中国的传统文化存在重定性、重概括、轻逻辑、轻数据的倾向和习惯。数据,是科学的度量和基础,不重视数据、漠视精确,科学就无法生根。中国这一百多年的落后,和这种传统是脱不了干系的。当然,改变也不是一朝一夕的事情。 

      此外,数据的全面开放也必须有制度作为保障。目前在中国的公共领域,我们还很难看到这种制度化的迹象。公共数据是一个社会的基础数据,没有它的开放,整个社会的数据整合就难以谈起,大数据时代就会大打折扣。 

      大数据,大梦想 

      “透过对科技大浪潮的描述,邀请年轻人关心社会的发展、国家的命运” 

      生活周刊:关于制度的保障,您在《大数据》里介绍了不少美国的情况,不过我对您个人履历里“匹茨堡华人社区领袖”的身份更感兴趣。 

      涂子沛:我现在担任中国旅美科技协会匹兹堡分会的主席,这是匹兹堡地区华人社区最大的一个自治组织,常常代表当地华人社区参与美国社会的活动。华人社区和其自治组织的形成都是自发的,组织的运营经费来自会员的会费和义务的捐款。 

      社区自治是美国社会的重要组成部分,也就是说,通过各种各样的利益纽带,公民能够自由地组织起来,形成团体,因此他们的声音会被放大、利益得到声张、最终形成一股制衡、监督的社会力量。 

      生活周刊:华人为主的社区和美国人的有什么不同? 

      涂子沛:海外华人有很多优点,最大优点就是遵纪守法、勤劳肯干,但在公共生活的参与上,确实有很多不足。例如公共活动的募款,美国人的大部分家庭每年有这部分预算,你说清楚了募款的目的,捐或不捐,一般比较干脆爽快。我们华人就不一样,大部分的生存状态还是各人自扫门前雪,过好自己的小生活,对其它事情不关心、也不过问,一般来说,向华人募款比较困难。 

      这里有很多原因,不是因为华人没有钱,华人大部分是中产阶级,而是因为我们没有这个传统。这可能是长期农业社会带来的影响。因为进入工业社会的时间较短,华人社会还不习惯协作、介入公共生活、营造公共价值。不仅是中国大陆,海外的华人也是这样。认识到公共参与的重要性,其实就是认识到现代生活是群体性的,如果脱离群体,个人就会原子化,难以发出自己的声音。在大数据时代,就尤其要认识到这点。 

      生活周刊:应该说前景不错,《大数据》在国内引起了巨大反响,前一阵您还在上海、北京等地做讲演。这您事先想到过吗? 

      涂子沛:这本书出版之后,短短不到半年加印了7次,不少读者利用微博、电子邮件表达了他们对书的肯定和喜爱,还有一批知名的学者、企业家也公开推荐这本书。这些反响,出版社和我都有一定预期。《大数据》之所以激起了很多人的关心和讨论,是因为这不是一本纯粹谈技术的书,而是一本以技术为背景探讨人和社会的关系、解剖数据革命的书。任何一种革命,都是社会层面的事,也正是因为书中融合了技术、政治、商业、社会等多个角度,才能引起巨大的社会反响。 

      生活周刊:就您目前的观察,主要读者是哪些,为什么会是他们? 

      涂子沛:目前《大数据》主要的读者群是企业家和公务员。但我这本书,当初撰写时主要锁定的目标读者还是年轻人,特别是即将毕业的大学生。这从本书的一开始就可以看出来。我在序幕一章中引用了奥巴马2008年在卫斯理大学毕业典礼上演讲中的一段话,奥巴马在这段话中强调,大学生不能把个人的生活和国家的发展割裂开来。《大数据》正是想透过对科技大浪潮的描述,邀请更多的年轻人来关心我们社会的发展、国家的命运。 

      生活周刊:您最想对他们说什么? 

      涂子沛:正在到来的大数据时代,数据的作用将前所未有的凸显,数据将成为国家竞争的前沿、企业创新的来源。这些传统和现实的不足,是我们中国社会迈进大数据时代的制约和障碍,这些问题,都值得我们去认真思考。 

      生活周刊:听说您在筹写下一本书,将会写什么内容? 

      涂子沛:我下一本书的主题,仍然是数据以及信息技术的发展对社会的变革和影响。在大数据的时代,关于数据的知识将成为个人知识结构中的必备要素和基础,成为国家竞争、创新的前沿,我们中国,要应对好这个挑战,还有很多工作要做。下一本书的中心将会从美国转移到中国,系统地梳理中国人对于数据的认识以及当前信息技术为中国发展提供的机会,争取在信息技术层面为中国如何深化改革、扩大开放提供思考和借鉴。

      小知识

      大数据:指大小已经超出传统意义上的尺度,一般的软件工具难以捕捉、存储、管理和分析的数据。一般以太字节为基本单位。

      数据的存储单位:最小单位1字节,8位,依次为千字节(KB)、兆字节(MB)、吉字节(GB)、太字节(TB)……一页纸的文字约5千字节(5KB),一部电影约1吉字节(1GB);“大数据”以太字节为基本单位,即1204GB;最大单位尧字节,超出想象,无法描述。

      数据与信息:这两个词经常被交替使用,但严格说,两者区别很大。数据是对信息数字化的记录,本身并无意义;信息是指把数据放置到一定背景下,对数字进行解释、赋予意义。

      公共数据开放8大原则:数据必须是完整的;数据必须是原始的;数据必须是及时的;数据必须是可读取的;数据必须是机器可处理的;数据必须是无歧视的;数据必须是通用非专有的;数据必须是不需要许可证的。