正文

大数据的特征(3)

智慧政府:大数据治国时代的来临 作者:徐继华


苹果公司在iPhone手机上应用的一项语音控制功能Siri就是多样化数据处理的代表。用户可以通过语音、文字输入等方式与Siri对话交流,并调用手机自带的各项应用,读短信、询问天气、设置闹钟、安排日程,乃至搜寻餐厅、电影院等生活信息,收看相关评论,甚至直接订位、订票,Siri则会依据用户默认的家庭地址或是所在位置判断、过滤搜寻的结果。为了让Siri足够聪明,苹果公司引入了谷歌、维基百科等外部数据源。在语音识别和语音合成方面,未来版本的Siri或许可以让我们听到中国各地的方言,比如四川话、湖南话和河南话。

多样化的数据来源正是大数据的威力所在。例如,交通状况与其他领域的数据都存在较强的关联性。研究发现,可以从供水系统数据中发现早晨洗澡的高峰时段,加上一个偏移量(通常是40~45分钟)就能估算出交通早高峰时段;同样可以从电网数据中统计出傍晚办公楼集中关灯的时间,加上偏移量估算出晚上的堵车时段。

快速度

在数据处理速度方面,有一个著名的“1秒定律”,即要在秒级时间范围内给出分析结果,超出这个时间,数据就失去价值了。

例如,IBM有一则广告,讲的是“1秒,能做什么”?1秒,能检测出台湾的铁道故障并发布预警;也能发现得克萨斯州的电力中断,避免电网瘫痪;还能帮助一家全球性金融公司锁定行业欺诈,保障客户利益。

在商业领域,“快”也早已贯穿企业运营、管理和决策智能化的每一个环节。形形色色描述“快”的新兴词汇出现在商业数据语境里,例如实时、快如闪电、光速、念动的瞬间、价值送达时间。

英特尔中国研究院首席工程师吴甘沙认为,快速度是大数据处理技术和传统的数据挖掘技术最大的区别。大数据是一种以实时数据处理、实时结果导向为特征的解决方案,它的“快”有两个层面。一是数据产生得快。有的数据是爆发式产生,例如,欧洲核子研究中心的大型强子对撞机在工作状态下每秒产生PB级的数据;有的数据是涓涓细流式产生,但是由于用户众多,短时间内产生的数据量依然非常庞大,例如,点击流、日志、射频识别数据、GPS(全球定位系统)位置信息。二是数据处理得快。正如水处理系统可以从水库调出水进行处理,也可以处理直接对涌进来的新水流。大数据也有批处理(“静止数据”转变为“正使用数据”)和流处理(“动态数据”转变为“正使用数据”)两种范式,以实现快速的数据处理。


上一章目录下一章

Copyright © 读书网 www.dushu.com 2005-2020, All Rights Reserved.
鄂ICP备15019699号 鄂公网安备 42010302001612号