|
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?注册
x
随着互联网的飞速发展及计算机技术的日益进步,人们的日常生活越来越依赖于互联网。即时通讯、网络购物、社交网站以及微博、微信等典型的互联网应用已成为了人们日常生活中不可或缺的一部分,既满足了人们情感交流的需要,又给人们的物质生活带来了极大的便利。反过来,人们对于互联网的广泛使用也给网络留下了越来越庞大的数据。这些数据包括:用户上传的各类文字、照片、视频以及用户在各类网站留下的日志记录等。这类数据的规模变得日益庞大,例如,百度一家公司拥有的数据量就高达数百PB(1 PB = 1,024 TB)。归纳起来,这类数据具有4V特征:Volume(数据量大)、Variety(数据种类多)、Value(价值密度低)、Velocity(处理速度要快)。近几年来,互联网应用及网络接入带宽都获得了长足发展,毫无疑问,大数据时代已经来临。
大数据的兴起给网络领域的科学研究和工程实践带来了革命性的变化,这也是这几年来大数据一直为专家学者及工程师们在各类场合所“津津乐道”的原因。总结起来,大数据所带来的变化主要体现在以下几点:
1、当前,数据的发展演进已由DB(Data Base)走向BD(Big Data)。BD和DB存在着很大的不同。与DB相比,BD的体积大得多,处于TB级,乃至PB级,甚至更高。但DB中的数据是高质量的,干净的,数据价值密度高;而BD中的数据却与之相反,单位密度的数据价值很低,是非结构化的。如何在BD数据的高存储及计算成本与低密度价值之间寻找到最佳平衡将是大数据研究的一项长期课题。
2、大数据研究的侧重点在于相关性而不是因果性。传统的科学研究讲究因果关系,强调的是精确性;但在大数据里面,相关性成为了研究的焦点。显然,在相关性这个范畴内,对事物的预测就不能做到绝对精确,而只能在一定的置信区间内对未来做出一定的判断。事物间存在较强相关性的例子很多,比如,Google通过分析用户对感冒相关症状的搜索频度能预测流感;阿里巴巴通过对电子商务交易量的下降能预测金融危机。上述所列举的相关性例子易于被理解,其实,令人费解的例子也不少。例如,有专家发现:人的增重与房屋租赁存在着很强的相关性,这就不容易被理解了,但二者之间却存在着很强的相关性,可以为我们所用,尽管二者之间并没有直接的因果关系。总的来讲,大数据分析侧重于挖掘不同事物间的相关性并以此作为作出各类判断的依据。
3、大数据使运算更依赖于数据而不是算法。运算可以抽象成简单的表达式:Y=F(X),F()代表的是算法;而X代表的是数据;Y代表我们希望得到的结果。在大数据时代,F()的重要性下降了,而X的重要性大幅增加,因为较多的数据对于结果的影响要好于较好的模型。
总之,随着互联网的飞速发展,大数据时代已经来临。大数据的特征也日益清晰,大数据的价值是显而易见的。围绕着大数据这座“数字宝藏”,越来越多的专家学者以及工程师正在不断地加入“数据矿工”的行列,正在用他们的智慧去挖掘“数字宝藏”中蕴含的弥可珍贵的“数字金矿”。互联网的飞速发展产生了巨量的“数字宝藏”,而“数字宝藏”的开发利用必将反过来促进互联网的进一步发展,催生新的互联网杀手锏应用,最终造福于广大网民。 |
|