欢迎您!
主页 > 财神爷心水论坛 > 正文
复旦数学家: 从《般若心经》揭开大数据的本质 文化纵横
日期:2019-09-19

  《文化纵横》2019年8月新刊现已上市,点击文末“ 阅读原文”即可订阅。

  【导读】大约从2012年起,“大数据”通过各种传播渠道,成为公众耳熟能详的热词。然而在媒体的狂轰滥炸背后,“大数据”对于大多数人来说其实还是一个人云亦云空泛的词汇,其真正内涵对大众的理解还存在距离。事实上,大数据技术不仅已经在现实中改变了人类生活的方方面面,也带来了人们意识观念上的深刻改变:人类的一切经验皆是数据、皆可量化处理。一些科学家认为大数据是科学研究继实验观察、理论建构、计算机仿真之后的“第四范式”。而本文则以佛教认识论中“受想行识”的分类,以两千多年前的佛教思想来界说今天的大数据技术。本文不仅是对大数据概念的清晰介绍,而且让人感到今天的前沿技术并不是对古老思想的全盘颠覆,而是后者的传承与最新进展。文章原载“科学1915”,仅代表作者观点,特此编发,以飨读者。

  大数据这个新名词,近来总在不同的媒体出现。 究竟什么是大数据,不同人有着不同的理解与解读,但总体形象还不十分清晰。 如果说成数据科学,那就比较容易理解了,即关于对象为数据的科学,而大数据应该是数据科学中的问题,是尚未解决的问题,是数据科学延伸的一个研究领域。

  大数据与传统的数据科学有什么差异呢?“ 大”的一个直接解释是多,但数据 多并不自然等同于大数据。 譬如小孩子背圆周率,不可能全部背出来,因为这是一个无限小数,也就是说数据是无限多。 但是数学上早已给出多种不同的计算方法,想要精确到多少位就精确到多少位。

  笔者认为, 凡是数学已给出方法计算的,都不能算作大数据,或者说用现有数学方法处理的数据都不能算作大数据 。 笼统地讲,数据科学涉及数据采集、描述、表示、分析、重构 、理解、演绎、挖掘等部分。 而 大数据与传统的数据科学的差异,笔者认为主要在于: 数据的异源、异构、不能直接嵌入经典的数学空间、含有深层的隐藏信息,以及与已获得的经验数据的联系、融合 。 这是大数据研究的挑战性所在。

  研究大数据是为了提高我们对现实世界的认识达到大智慧。 这在佛学中称为“般若波罗蜜多”。 所以笔者在这里引用《般若波罗蜜多心经》中的话: “受想行识、亦复如是”。 这里改动一个词,将“行”改成“形”。 受——就是感受,就是数据采集; 想——就是数据分析; 形——是形成概念,数据重构; 识——是对数据解读进而成为对现实世界的理解,并可用来为之服务。 下面 就这四个方面谈谈笔者对大数据的理解。

  人是怎么感受世界的? 这还要引用《般若波罗蜜多心经》: “眼耳鼻舌身意”。 眼睛看到的东西我们可以用数字照片记录下来,耳朵听到的可以用数字录音。 视网膜、耳蜗中的绒毛及听骨记录的,如同计算机中的视频、音频文件,也是有限的离散数据。 电子鼻、糖度仪一定程度上模拟了鼻舌。 “身”是触觉,也有不少仪器模拟它,如红外遥感、X波雷达、CT等来模拟,而且扩充了人类采集数据的能力。 “意”的解释稍微困难一些,可能是第六感,用数学语言说就是通过异构数据的协同计算获得的信息。 蝙蝠可以通过听声音来辨别前方的物体,而一个人可以做到听音辨物就会被认为是特异功能了。

  一个有名的数学问题是: 人可以从鼓声听出鼓面的形状吗? 纯粹数学家找到了两种鼓面,证明它们发出相同的声音,不过鼓面的构造比较复杂。 这个结论事实上告诉我们,如果只有圆、椭圆、三角、四边、六边、八边等简单鼓面形状的鼓,人们是可以通过训练(数学上是学习算法),从鼓声中分辨得到鼓面形状的。 再如,上司发火时会伴随着脸部的肌肉抽搐,当半夜从睡梦中被一阵电话铃声叫醒,听到他在电话里咆哮,虽然没有看见他,脑海中一定会出现那张弯曲的脸,或者说甚至可以听出表情。 这好像是超能力, 笔者更愿意把它叫做隐能力。 X波雷达、红外遥感也是如此。

  所以, 数据科学首先要在数据采集上将看不见、听不到的数据转换为看得见、听得到的数据,将不是用通常手段采集的数据转换为通常的数据表达形式,以扩充、提高人们采集数据的能力,特别是拓展隐能力。

  反过来,心理学家也做过实验: 将一个每秒24帧图像的影片,每24幅后加一张图片,可以是血腥的,甚至只是写上一句令人沮丧的线帧的速度播放。 播放时一般不会发觉有什么异样,但当人看完整部电影之后,就会感觉非常不舒服。 这也叫暗示,某种信息在不知不觉中传到并记录在观众脑子里。 近年来,有不少科幻影片通过手机等植入广告的形式发送隐藏信息,以控制人们的思想。 甚至有传言,美军在伊拉克战场上就已经采用了这种战术,在战场上用超声波播放伊斯兰教祷告的录音以瓦解敌方的斗志。 开发利用数据采集与播放发送的隐能力,是数据科学特别是大数据的重要领域。

  数据分析,首先是去噪,譬如现在好的相机都有防抖功能,这是利用数学方法获得了去除噪声的图片。 再一个是滤波或者说信号分离。 在宁静的山村,人们早上醒来,听到几波鸡叫,会记得有几只鸡,它们在哪几个方位。 这里做了现在称为机器学习或学习理论的事情: 识别与分类。 把一些鸡叫声归为一类,识别出这是同一只鸡在叫,同时分辨出有几只鸡。

  又如,看了一个网页,会记住一些关键词,或者说提取了特征统计量。 在记录图片时,记住的不会是图片每一个点的颜色(BMP文件),而主要是一种印象,或者说是印象派的图像。 印象派有两种: 一种是高更的,是导数、图像边缘突现; 一种是莫奈的,模糊化的,可能是JPG文件或数学中称为小波框架的图像。 这也就是压缩感知,把数据进行降维、压缩,记住想记住的东西,用尽量少的脑细胞记住一件事情。

  数据处理的一个重要组成部分是数据的降维。以便他们尽快融入大家庭。今天香港马会挂牌彩图, 譬如人脸识别, 如果可以简单刻画(用简单函数表示)这个人的相片所在的那个低维流形,那么就把那个人容易地识别出来了。 降维的主要数学方法是主成分分析,也就是提取特征。 统计中的均值方差都是数据的某种特征。 JPG图像文件的压缩逻辑是把一个大概印象放在高层,而将细节放在底层,可以逐渐细化地显示。 心理学家也做过实验,让许多人快速看一些图片,然后让其描述所看到的内容,也就是印象。 发现人的印象也可以分为两类: 高更型的可以归于逻辑思维型的,将图像分片,每片用一种颜色表示; 莫奈型的可以归于形象思维型的,是细节图像的模糊化结果。 当然,更多的人是介于两者之间,融合了这两个压缩感知的方法。

  数据从数学上来说主要表现为点或高维空间的点,函数离散化以后还是点,算子离散化以后是矩阵或张量,仍然是高维空间的点。 通俗地讲,数据处理就是处理高维空间的点的关系。 而点之间的关系是由距离(注意通常不是欧几里得距离)或连接图、连接路径组成。 数学上是用转移矩阵表示的,或者说是复杂网络的动力学问题。 要找到点之间的关系,通常首先要给每个点或点簇、点云一个地名,这个地名通常是模糊的,它由这个抽象的点或点簇所表示的具体对象的一些关键词组成,这时学习理论的两个根本问题又出现了: 一个是模拟识别,就是寻找关键词、特征; 一个是分类或聚类,把相近或相异的关键词用数学表示出来。 接下来是一个对数学而言还只算是进入皮毛的问题,就是用数学来研究词典、语义学、句法分析、人物关系、段落大意及文章主题。

  通常认为,数据有三元的结构属性: 真实的存在、记录的数据、人类的理解。 人脑形成的对该事物的理解与采集的数据是有差别的,而采集的数据与该事物的真实存在也总是有差别的。 人脑不可能采集事物的全部数据, 而人脑对真实事物的理解又会比采集数据要全面。因此 记录的数据通常是有容余的,同时又是不全面的 。

  譬如一个人不同环境下的大量相片。 有些部分是重复的,通常脸部最多,但又不完全重复,因为角度、光照或表情可能不同。 单词“redandency”笔者想译成容余而不是冗余,是想说明这些信息是有重复,但它对信息重构不是完全没有用的。

  当从真实存在的事件中采集了数据后,人脑会对之复原或重构,在人脑中形成对该事件的形象或理解——脑海中的世界。 人们总是将获得的信息或数据去噪、分类、解构后安装、重构到自己已有的知识结构中。

  对于信息有多个来源时,有相信谁的问题 ,这犹如许多软件可以自动进行天气预报,但结果一般不完全相同,医生看病也是如此。 最为简单的是加权平均,比较地相信权威。 但人们会得出更为聪敏的结论,知道在什么问题上应该更相信谁,并且一定会以非常大的权重加入自己固有的思想。 用数学的语言说,会将问题升维。 克莱因瓶不能在三维空间用函数描述,但在四维空间可以数学描述。 复数、四元数正是用来处理这样的问题的。 所以, 为更好地处理数据,升维是数据处理的一个重要方法,在一个更高的思维层面上考虑问题,以便更好地看到主要矛盾之间的关系。

  识,即数据挖掘、预测、利用。 海量数据总还是有限的,也就是说对于真实世界的描述人们可以获得的数据还是太少,还都在瞎子摸象阶段。 当 采集到的数据只有大象耳朵时,大象就像簸箕了。 作为大数据,首先应通过其他途径的经验数据综合认识到大象的耳朵像簸箕,然后还可以综合采集其他部位的数据的结论,形成对整个大象的描述。

  在数据重构中,人们应该得到比采集数据更多的东西,根据经验恢复部分的缺省数据。 譬如大楼,是物理真实存在的一些不完整信息在人脑中形成对大楼的了解。 物理存在的内容是完整的事实,而可以看到或了解的只是其中很少一部分,如只是一张斜角包含大半个正面的照片,但 由对称性等经验,在人脑中形成的影像会更全面。 如果有高楼下面几层的照片,其中窗户是清晰的,同时又有该高层建筑的远距离照片,窗户不怎么清晰,那么在人脑中形成的将是一张窗户清晰的整体相片。

  人脑有非常强的数据解构、重建及根据经验再融合重构的能力。 大数据就是希望利用数学通过计算机来实现这个能力,并且希望比人类做得更好、更快,特别是大数据分析中,希望完成利用人力几乎不可能完成的任务。 看到半张脸、半幢大楼,那么根据对称性,人们对整体会有一个更加全面的形象概念。 当下一次从另外的角度再见到时还会认识。

  那么半句话呢? 前几天笔者在某城市就看到一个被树木遮住一半的城市公益广告牌: “花一样的……”。 因为是市府公益广告,第一反应是“花一样的城市”,提醒保持环境卫生之类,后来看见边上是一所小学,我想到了“花一样的年华”,提醒要遵守交通规则,当然脑海中还出现了“花一样笑容”“花一样的美丽”等句子。 走近一看是“花一样的钱,办更大的事”。

  这是经验数据在起作用,可见笔者的经验比较浪漫主义,局限在花朵的花,但与现实有一定的距离。 当然要处理这样的问题,数学的方法现在可以在譬如百度上键入“花一样的”,然后就可以得到非常多的信息,聚类分类后,统计一下,就可以得到某种结果出现的概率。 但要排除掉“这是市府的公益广告”、“边上有学校”之类只在具体事件发生地出现的非直接信息或采集的数据。 这些信息通常是有用的,并且可能是决定性的。 而在上面的例子,则也可能是误导信息。 大数据就是要处理并合理利用这样的信息。

  现在许多案件的破获都利用摄像头的视频信息。 譬如波士顿爆炸案,是由一系列的模糊信息导致的越来越清晰的结论: 炸弹包裹是黑色手提包,有带黑色棒球帽者提着黑色手提包,带黑色棒球帽者经常与带白色棒球帽者在一起,而带白色棒球帽者有脸部清晰相片,对照警察局记录该人有案底。 但要处理这些相片需要多少工作量。 这些工作有时只靠人力还不行。 每个人只能处理一部分相片,而更为关键的是,将各相片中的模糊结论或模糊概念联系起来,能得到貌似还是模糊的、其实更为清晰的结论。

  首先应该整理这些相片得到一些关键词,最好在照片的拍摄过程中照相机就已经进行了自动处理(离线处理,预处理),放在照片附带的说明文件中。 而关键词或者说标签最好是标准化的,当然同时越是标准化越会流失一些可能有用的模糊信息。 由于视角的不同与关心问题的角度不同,每个人选择的关键词或标签也是不同的、个性化的。 这样又导致了个性化关键词的语 义模糊匹配问题。 在数学上,对个体智能或底层数据处理的研究已经达到了很高的阶段,并且可以说已经看到了基本解决此类问题的曙光。 但对群体智能,如何融合多个个体智能的高层数据结构处理、描述、传输、动力系统行为的研究还在一个刚起步和黑暗的阶段。 也就是说,大数据处理的高层云模糊设计的数学描述,是大数据处理是否可以有所斩获的关键。

  具体的就是,如何整理非结构化的数据,使之成为拟结构化的、半结构化的、或者结构化的数据。 同时又不能丢失可能有用的信息。

  总的来说,大数据研究是用数学或数据来描述、理解现实世界,是完成“受想形识”,达到大智慧的唯一途径。

管家婆| 香港天下彩开奖结果| 香港正数码挂牌彩图| 红状元高手论坛| 香港六合最早挂牌网| 精英太阳网心水论坛| 创富平特论坛| 红姐统一图库彩图专区| 马经历史图库内部公开| 百乐门时时彩|