观点丨电子科技大学陈建文:没有完美的大数据,现实世界都是小数据

时间:2017-8-11   18:00      浏览:311次

[导读] 研究AI的人都知道一个基本的原则:数据越大越全面,输出的结果就越精准。但问题是,我们始终找不到理论上完整的大数据,所以业内有小数据和小样本学习,即推理和规则体序。而这二者的结合,似乎就是AI未来的重心所在。

务实一点说,我们很多人,甚至包括一些professer,对大数据的理解是错误的。我在很多会议上都说过,这个大数据的大是什么意思呢?不是说数据有多大,也不是说数据有多么海量。

我曾经跟一个教授谈,他就说,我们是做三维全息的,我一秒钟几个G的数据,你看我数据大不大?还有人说,我一天采集了很多很多东西,我的这个sense很多很多……

其实,按照学术界的说法,大数据我们更多讲的是数据的维度。一个人,如果说只有一个维度,不管你再大,你就是一个人。只有当你具备很多不同维度的时候,你才是一个丰富的人,精彩的人。

实际上,数据永远不可能是完整的。

举个例子来说吧:你想要了解我,因此你去搜了一下,搜到了一些信息。但是,你搜到的一定是一个子集。然后另外一个人也去搜,他搜到的也是一个子集。你们搜的都是一个子集,都是不完整的。

但是有一千个人搜的数据合在一起的时候,我根据这一千个人的数据,我基本上可以断定这个人的基本情况了。所以你看,越多个不完整的子集,就越接近事实真相。但是,核心的点是你永远不可能拿到完整的数据,这个世界上又有什么数据是完整的吗?怎么会有完整的数据呢?

任何一件事情,你往深的挖,它都是不完整的。中国古语也有云,“大道五十,天衍四九”,也有一点这么个意思。

大数据的意义在于,数据的维度要很多。如果这个数据本身就没有什么维度,就是个一维、二维或者三维的东西,那大数据也就没有意义了。

当数据采集的维度很多、角度更多、采集的源泉更多的时候,日积月累,我们往往就能从统计意义上得到一个概念。

这是第一层,独立数据的结果。

还有另外一个情况,你从网上整理了很多信息,另外一个人也整理了很多信息,你们只是把信息汇总在了一起,最后得出一个结论,这是第一步;第二步呢,基于这个信息你要去做预测和分析。根据你喜欢吃辣椒、喜欢踢足球等特征,从而预测出这个人性格应该是什么样子的,你就又往前走了一步。

就像人们常说的的小样本、小数据、大数据的学习,就我看到的所有的样本,光靠采样是永远不可能采全的。千人千面,任何的样本,都是小样本,任何的数据,都是小数据。

我们现在看到的所有互联网上的数据,都是小数据集合成的大数据,小数据的内容聚合成一个大数据的整合。对单独的样本来说,数据都是小数据,没有所谓的大数据,完整的数据只存在于理论当中。在研究采集中,我们所得到的永远只是一部分。从这个层面来讲,它是属于小数据和小样本。小数据多了之后,它会形成一个大数据,再通过梳理、预测,算法,它会得出一定的结论。

这个能力是目前我们讲的大数据里最大的行业应用,就是规则推理。

真实世界里没有大数据,你看到这个人,你描述他,十个词、二十个词,都是小数据。但是,你站在宏观上,不去测量这一个独立人,而是去描述这一类人的时候,它就是大数据了。

所有的东西都是这样,你测量的时候,获取、真实的采集这个数据的时候,这个数据就已经被你固定成小数据、小样本了。

本文节选自《「人物特写」电子科技大学陈建文:没有完美的大数据,现实世界都是小数据》(陈建文:电子科技大学 视觉智能研究中心主任)

内容来源:镁客网 作者:纤尘 伶轩 整理:易康医疗大数据(微信号:cdslyk )

成都数联易康科技有限公司,专注于利用大数据手段为各地人社局、卫计委、医疗机构、商保机构提供智能审核、医疗行为监管、政策制定辅助决策等服务,从事前、事中、事后三个层面确保基金安全,易康以其独到的大数据方案特点,获得了各地医保、卫计委、商保客户的高度认可,业务遍布全国。

地址:成都市高新区天府大道北段1656号环球中心E5区3-2-613
电话:028-64790501
版权所有: ©2015  成都数联易康科技有限公司    蜀ICP备15021363号-1