大数据时代来临前的思考

宽客网,量化投资,宽客俱乐部

   

       大数据是时代主宰还是运用工具,是对传统的颠覆还是既有文明的传承?纵观历史,每有新事物降临,人类社会总会经历此般从惊奇到喧嚣、继而冷静、最终习以为常的过程。近日阅读徐子沛的《大数据》以及维克托·迈尔的《大数据时代——生活、工作与思维的大变革》,收获甚多,两位作者敏锐的时代触觉及在各自研究领域的扎实功底让人深感佩服。

       徐子沛诠释的“大数据”,我认为应加入“看美国的民主”作为注解。该书主要分析了美国在信息公开及数据管理方面的建设历程,旨在说明当今社会,大数据正深刻影响着包括政治、商业、生活等在内的各个领域。这场大数据革命以数据资源的公平性、公正性为基调,技术专家作先锋、公益组织为主力、政府从被动配合到主动作为,期间有迂回、有倒退、有妥协,但大数据浪潮仍旧冲破重重阻碍、一路高歌猛进。“正是一小批执着的公民改变了世界”,美国热心公益的精英阶层及追随他们的民众是美国持续创新、引领世界的原动力,他(她)们对民主信念不离不弃的坚守、对公民权益不屈不挠的争取,是美国最珍贵的财富;“改变美国政府决策的6种力量:公共知识分子、新闻界、民调机构、公益组织、国会、法院”,多方权力制衡下的民主社会结构,虽然争吵不断、效率不高,看似资源浪费,但最终出台的措施是社会各种势力角力的结果,充分保障了公民权利和自由。此时,回望美国建国者设立全国组织架构时秉承的良知之心、公义之理,可谓别具匠心、高瞻远瞩,惠泽后世数百年。大数据,只会在开放型社会机制下率先降临并绽放;大数据,也只会在充分尊重公民隐私权的制度保障中不至于失控。自美国政府开放gov.com网站以来,诸国纷纷效仿,在世界形成一股不可逆转的政务公开的大数据潮流,反观某些国家仍在固步自封,以威胁国家安全、暴露个人隐私为由(曾经英美政府也用过),不思图变、不思应对。可是,在全球化的今天岂有安居一隅的可能?

       如果说徐子沛是在为数据公平、公正地开放而呼吁,那么,维克托·迈尔则是从技术理性的角度分析大数据的缘起、运用、弊端及对策,让被大数据热潮冲晕头脑的人们理智、冷静地面对这一新事物,用其所长、补其所短。他将大数据的特点表达为:一、不再抽取随机样本,而是分析总体数据;二、允许数据的不精确性,接受混乱数据;三、重视相关关系而非因果关系。在大数据时代,拥有数据资源、专业分析技能及数据新思维运用的机构或个人,将成为新的时代领袖。当前的行业专家、传统的经营管理模式都将是过去式,教育、社会学、心理学、历史、哲学等社会学科研究方法也会逐渐采取如数理学科的量化分析模式,大数据给人类带来的是一次思维习惯、生活方式的颠覆。

   

       一般来说,为便于新事物快速宣传推广、破除桎梏,支持者往往需要提炼甚至夸张新事物的某些特点,但此举也常常造成后来人执行时因理解偏执而过于武断、脱离实际,影响甚至阻滞新事物的成长。就维克托·迈尔先生在本书中陈述的关于数据相关性和因果关系的观点,译者周涛先生首先提出不同意见。他认为未来的大数据分析应能经受因果分析的检验,如因为要提高效率而对数据之间的现实关联置之不理、盲目遵从,则等同于将人类智慧让渡于机器,最终会被差错数据或数据之外的现实所吞噬,本人十分认同该观点。

      塔勒布的《黑天鹅》一书最近流传甚广,他与大数据的观点可谓针锋相对。他认为人类就历史数据作出的分析不能预测未来事件,类似9·11事件、2008年金融危机,没有人能通过数据统计分析判断出来。历史既有重复的部分,也有创新的部分,如果人类不假思索将数据分析结果囫囵吞枣、盲目执行,只会反累其身,得不偿失。因此,维克托·迈尔先生在分析数据弊端时也提出一个概念叫作“数据独裁”, 即不能盲从数据分析结果,因为数据缺失或错漏可能对现象反馈不足。为避免出现该问题,他认为数据分析结果只能参考而非决策。既然如此,“参考”之外所需思索的问题自然包括因果关系、可行性、外部性等。此外,关于“样本数据”与“总体数据”的差异,我认为在于使用者如何定义数据范围。譬如某公司分析消费者行为,是将全社会所有潜在消费者作为总体还是将有数据记录的消费者作为总体,这取决于该公司是计划拓展新市场还是继续挖掘存量市场。如果是前者,则现有数据不过是样本数据而已,需考虑分析结果与实际状况可能存在差异。

   

       伴随大数据而来的是对个人隐私权的侵犯,如何把握数据资源整合与公民隐私之间的尺度,政府在制度立法层面需未雨绸缪。目前,基于个人隐私保护原则,在数据收集时收集方应征得调查对象同意,授权数据用于指定用途,且承诺对数据保密、不滥用。但是,该制度仅限于数据初次使用,而大数据真正的潜力往往发挥于二次及后续使用阶段,如要再次获得调查对象许可,或不可行,或可行但操作成本过高。有人建议二次数据使用时隐匿调查对象诸如姓名、地址、身份证号码、电话号码等唯一性的身份信息,但经实践证明,数据二次使用的多维度来源仍然可以对身份进行辨识,不能从根本杜绝对隐私权的侵犯。鉴于此,维克托·迈尔先生的建议是:由数据运用者承担因数据使用不当引发的一系列损失。参照现行的机构审计体系,新增算术师这一专业岗位,监管机构和数据使用机构分别设立外部算术师和内部算术师,对数据使用是否对个人隐私形成侵犯进行评估和审查,实现内部自律和外部他律。双管齐下,双重控制。

   

       我们所处的这个时代,正在经历由信息科技迅猛发展引发的一系列社会变革。在分享其带来的成果和快乐时,也须预见和应对其所产生的新问题。既不因噎忘食,也非盲目乐观。遵循历史发展规律,套用一句古语:择其善者而从之,其不善者而改之。
数据分析, 数据挖掘, 大数据, 数据



                                                    风险提示及免责条款

市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部