数据是什么意思(数据的三个基本特征)
我们都说今天是数据时代。到处都在讨论大数据,大家都说自己在研究数据。那么什么是数据呢?能否给数据一个最简单明了的定义?这个问题看似简单,其实没那么容易。
这里有个小笑话分享给大家:很多朋友都说北大的安保很深厚。为什么?因为在参观北大的时候,经常会被叫住,然后问三个问题:第一,你是谁?第二,你是从哪里来的?第三,你要去哪里?这三个问题看似简单,实则深刻。凡夫俗子,和你我一样,恐怕回答不了。能回答这三个问题的人是圣人。这是一个小笑话。从这里我们可以看出,看似简单的问题其实并不简单,甚至可能是深刻的。同样,什么是数据?这个看似简单的问题并不容易回答。我们可以试着带着这个问题去问很多很多的修行者,我相信我们会得到很多很多不同的答案。
——有两个我经常听到的典型回答。第一个回答说:“数据就是信息。”这么说对吗?我不反对。但是这个定义有一个缺点,就是信息太抽象。数据本身是一个抽象的概念,信息似乎是一个更抽象的概念。而数据和信息,这两个都是很抽象的概念,却相互定义,这并不能让我满意。所以,能不能给数据一个更简单更接地气的定义?一个朋友说:“好的,王小姐,我给你一个非常好的红豆博客的定义:数据就是数字。”这么说对吗?这是有一定道理的,因为数字可能是最典型的传统数据。我们看到的很多数字,比如GDP,股市指数,人的身高体重血压,都是数字,当然也是数据。所以说数字是数据肯定没问题。但另一方面,数据是数字吗?不一定是这样的。
有人说:“王小姐,你不满意我们的定义。你的定义是什么?”在我看来,一切能被记录的都是数据。这里的关键词是“记录-记录”。按照这个定义,首先,数据的范畴远大于数字的范畴;另外,更重要的是,既然涉及到记录,就要说说记录数据的技术手段。因为技术手段不同,能提供的记录也不一样。
比如手机可能是记录手段,相机是记录手段,数据库是记录手段,我传统的笔墨是另一种记录手段。既然涉及到技术手段,就会有时代特征。为什么?因为不同时代提供的技术手段不一样。所以,在我的定义背后,还有一个更深刻的道理,那就是“数据的定义具有强烈的时代特征。”
这里有两个例子:
第一个例子:声音是数据吗?我想没有人会反对语音是一个重要的数据。但是一百年前,我认为声音不是数据。为什么?因为我们没有办法储存,既然没有办法储存,记录,更不用说分析了。怎么能说是数据呢?然而今天,我们的音频设备可以收集你的声音,然后将其转换为音频数字信号,从而支持许多有趣的应用。哪些应用?比如:iPhone的Siri,搜狗的语音输入法,的语音翻译等等。由此可见,声音是一种数据,而且是一种具有强烈时代特征的数据。一百年前不是数据,现在是因为技术的进步。有了它,就有了新的应用领域和商机。
再看一个例子:图像是数据红豆博客吗?我相信没有人会否认图像是重要的数据。但是一百年前,我认为图像不是数据。为什么?因为我们无法记录我们亲眼所见的精彩世界,也没有办法记录影像。怎么能谈分析呢?然而今天,随着数字成像技术的成熟,所有图像都可以以非常高的分辨率记录,然后进行分析,然后由许多有趣的应用程序支持。比如人脸识别,指纹识别,车牌识别,医学中大量医学图像的分析。这为我们的社会创造了巨大的价值。类似的例子还有很多。比如生物信息学的技术进步产生了微阵列数据,社交网络的兴起产生了社交链数据,物联网的兴起产生了车联网数据。这些数据都是记录,所以都是数据。这些数据都依赖于一定的技术手段,所以都具有强烈的时代特征。
——这一切都说明了一个道理,那就是一切能被记录的东西都是数据,都具有强烈的时代特征。如果这个道理是正确的,那么科学研究和商业实践可以反过来思考:第一,数据采集的基础技术在目前和可预见的未来是否会有一些突破性的变化?如果有,这些变化会带来哪些新的数据?其次,通过对这些新数据的分析,可以回答哪些以前无法回答的重大科学问题,能否产生一些增量的商业价值。在这两个问题的基础上,我们可以进一步思考需要做什么样的提前准备。这是我的核心观点。
综上所述,我认为,第一,一切能被记录的都是数据;其次,由于记录技术的进步,数据的定义具有强烈的时代特征;第三,新兴的数据类型往往意味着新的科学方向和新的商业机会,值得我们关注。