原问题及答案在如何看待饶毅的「人工智能还是伪智能」命题? - 人工智能,这里做一整理,以作专栏开篇。
不觉得做人工智能一定要先学点生物。
首先,大脑的设计不一定最优。本着”能用就行“的原则,大自然无意识的进化产生了很多并非最优的设计。一个典型的例子是视神经如何从眼底连到大脑视觉皮层,任何一位有经验的工程师都会让视神经信号从视网膜的背后汇集,然后传进大脑,而不是像人类的眼睛这样,信号从视网膜的前面汇集,然后在视网膜上打个洞穿过去(这就是视觉盲点的由来)。如果承认进化论是正确的,那么人脑中的许多复杂设计未必是实现智能所必需,而只是长年进化的副产品。有些设计可能是抵抗细菌病毒入侵,有些可能是供给细胞能量,还有些是处理慢得不能再慢的神经信号传递,还有些可能是以前两栖类爬行类的残留,只要拼在一起可以产生自我意识,就会有物种在无聊时萌发对智能的好奇。因此,从计算角度来说,并没理由相信大脑的设计一定是最优的。把大脑的设计全搞明白再做智能,个人觉得过于迂回了。
其次,以目前的生物学方式研究智能,不一定有效率。发现NO分子,发现膜离子通道,发现化学渗透,这些拿到了生物学诺奖的工作,其重要性不言而喻,但在计算上看起来,只是找到了生物传递信息和转化能量的各种方式,而且其效率与当代计算机体系结构相比差了不只一个数量级。如果目标只是智能,那为什么不用现成的?如果我们把大脑比作是一台复杂的计算机,那么我们现在对大脑的研究,就相当于检测到了总线上几个比特的变化和传递,或者最多是检测到CPU正在进行加减乘除。但对这台计算机究竟在做些什么高层的操作,运行什么算法,毫无感觉。同样的加减乘除,可以是为了牛顿法求平方根,可以是对目标函数做梯度下降,可以是计算一个字串的哈希值,或者正在对一个高维向量进行线性投影。从单纯的加减乘除中要推断出这台计算机在做什么,是非常辛苦困难的工作,不仅要事无巨细地完全记录,还要做大量的综合分析,现在因为实验技术的限制,我们连前者都做不到,更不用谈后者,这就是研究人脑的难点所在。但是如果退一步想,如果对一个未知庞大系统的反向工程太难,那为什么不自顶向下搭起呢?从原理出发,干净清晰,逻辑明确,能提高成百上千倍的效率。人工智能这个领域,现在做的正是这样重头搭起的工作,有便宜的存储,便宜的内存,便宜的CPU和GPU,速度上电脑又比人脑快,数据量大,实验可控制可重复,方便之极。
有人可能要说,大脑可能非常复杂,不是几个简单原理所能总结的。然而这几百年来的科技狂飙表明,大量复杂神秘的现象,其实往往可以用简单的数学模型概括。我相信大脑也不例外。科学家们拿进化算法解最优化问题,结果往往比不过有数学上理论保证的算法,可十亿年的进化却能出现复杂智能,我想非常可能的原因,是复杂智能其基本原理并不复杂,因此不管进化算法如何瞎折腾瞎组合,总是能撞上正确的路线,尔后在强大的生存压力下迅速将这条路线推向极致。智能的出现,就是这样的结果。
世界是很有趣的,先是从几条基本原理中衍生出千姿百态的世间万物,然后在琳琅满目中习得认识一切懂得一切的普遍法则,形成”一生万,万归一“的结构。几百年来基础理论的发展几乎解决了前者,并因此让我们从蒙昧走向了文明;而人工智能,则是我们攀登后者的证明。我不知道最后是否成功,但我相信,**由几条简单物理定律所创造的世界,必将能由从几条简单原理出发设计的系统所认知。**等到我们找到这几条基本设计原理,那大自然千百万年做出的简单粗糙的玩具,那些曾让我们在历史的漫漫长河中崇拜得五体投地的造物,在顶尖科学家和工程师们面前,只是更好设计的开始。
问题一:有文章我们眼睛里的视网膜贴反了吗?证明了我们视网膜贴反是有道理的。
这篇文章通篇没有说人眼的反贴比章鱼的正贴要好。文章里先列举了反贴的种种问题(成像不清晰,有盲点,更容易脱落出血),再说正反贴都存在共同的感光-色素-供血的结构,最后说了下人眼在反贴情况下的弥补措施(黄斑)。看完了反而觉得进化的补丁打得可真是多,神章鱼捣鼓出来的正贴才是一劳永逸的解决方案(大家每次吃章鱼的时候都要拜一下)。其实进化就是个大规模并行算法,在具体设计上陷入局部极小值也都是在所难免。
问题二:智能这种级别的问题人类思维目前是无法考虑清楚的,因为进化使用了亿万年的时间,可能计算量太大,可能是混沌系统,我们人类要理解不太可能。
这个不一定。首先,”无限的可能“、”计算量大“(甚至无穷)不等于不能理解,可能在表观上有千万变化,但基本原理却很简单,比如说,我们可以用”偶数“这个概念来抽象无穷多的数,得到它的共同性质,而不必一一罗列。同理,一个系统可以非常复杂,模拟起来可以非常费时,但如果知道了哪些步骤是必要的,哪些是多余的,就可以用几句话描述清楚其中的基本原理,所谓的”理解“,也就达成了。一句话,**分清了主次,才掌握了本质。**掌握了原理后我们就可以运用计算机做同样的事情,可以把那些细枝末节去掉(比如说我们不需要模拟细胞的新陈代谢),加强我们想要的系统性能(比如说我们希望达到超过人类的图象识别能力),能做到这些,强人工智能就不远了。
另一方面,无限的计算能力并不能帮助我们理解智能。就算我们能模拟人脑,把每个神经元对应的微分方程写出来,同时解十几亿个方程得到结果,我们同样陷入细节太多主次不分的窘境,看着十几亿个神经元满屏闪烁,到底哪些成分构成了智能的关键要素?我们仍旧一头雾水。这就如同定下了规则,却不知道规则会产生什么样复杂的现象。所以我觉得还是从几条大原则出发更靠谱一点,一旦从中导出的方法实际效果好,我们就相信这些原则是正确的,从这些原则去分析,本质也就能呈现出来。
像混沌系统如天气,微小的初值变化会对未来产生巨大影响,事实上确实是不可预测的。但是人脑是混沌的么?说不准。并不一定变量多的系统就混沌。洛伦兹奇怪吸引子只有三个变量哦,但是照样混沌;计算钢梁弯曲有无穷多个变量,照样用有限元解得妥妥的,为啥呀?每个系统有不同的内在结构,不可以一概而论的。我不能百分之一百说人类的系统一定可以理解和预测,但是看起来每一个在不同时间不同地点不同环境出生的正常人都有正常运转的大脑,因此智能系统起码是鲁棒稳定且能相互沟通的,对它可理解的信心也就倍增。
问题三:既然人类的设计比自然进化做得好,为什么生物细胞的能量转化效率如此之高?为什么大脑只用40W的功率却比世界上最先进的电脑更聪明?为什么最高端的相机还是没有人眼牛逼?自然选择碳基,是不是碳基就比硅基好呢?
纵观人类历史,存在着从手工加工到机械和热加工,再到理化方法加工(比如说大规模集成电路)这几个阶段。最好的手工也比不过毫米级的机械加工,最好的机械加工也比不过纳米级的光学蚀刻,每一次科技的质变,都是之前再精细的工艺无法弥补的。要是人类能掌握自组织纳米机械的设计工具和生产流水线,那再会有一次质的飞跃。而自然界刚开始就朝着自组织的路子走,用的是天顶星人的科技,三羧酸循环,光合作用,离子泵,都在微观体系下完成,没有摩擦力没有能量耗散,效率都接近百分之百,这这就是为啥大脑能耗低的原因。人类的科技相比之下笨重低效,差得远。
但是另一方面,自然的设计却只有原始人的工艺,与人类工业设计出来的产品相比,远远不如。一没有设计说明书,二没有模块化,各部件混合拼凑在一起,副作用层出不穷。为啥神经传导需要电信号和化学信号交替?又大大降低速度和带宽,又让各种化学药物有可乘之机。生物上来说一个神经细胞不能拉得那么长,所以用多个神经细胞对接;但站在单纯实现智能的角度上说,这就是一个糟糕的设计。
从目前的科技角度出发,人类可以没有那么多局部高效的部件,但只要找到了整个智能系统的原理,再加上大量的能源浪费(笑),没什么不可以实践的。总之,人工智能不用刻意模仿大脑,掌握原理和使用纳米技术加工制造,是互不干涉的两件事情。
硅基现在只是人类科技,碳基已经到天顶星科技了,所以现在的比较是不公平的。就算如此,硅基仍然能轻易达到纳秒级响应时间,缺点是能耗大产热高效率低,电子或者空穴就像是一群被鞭子抽着的野马,少不了自相践踏或者撞上柱子什么的。碳基用酶化学驱动要细腻得多,当然也慢不少。本质上来说碳-碳键可以连很长,碳氢氧氮各种组合非常多,总有一些组合能形成自我物质和能量代谢的回路,所以给自然进化带来了很大的空间。反之硅-硅键连不长而且只在低温下稳定,换来的是化学反应慢很多倍,进化也相应变慢,大概这就是为什么自然选择碳基的原因。一旦人类掌握了智能的原理,完全可以设计出硅基或者碳硅结合的系统,这些都不是什么问题。
问题四:目前深度学习在做些啥?
基本上现在深度学习这一块都没有在模拟人脑,而是自己定义最简单的(甚至在生物学上是错误的)目标函数和网络链接结构,给定了数据集,照着数学准则用梯度下降求解最优参数。不同的原则会得到不同的学习算法。为什么不用和生物学一样的模型?因为生物学模型太复杂了,不如做个简单数学抽象,效果好就说明在某种程度上抓到了本质。不然真心是一步也动不了。
因为原理探寻太难,所以灌水多但是触及根本的好文章少,大家都有近期压力,读博的要毕业,工作的要升职,做原理探寻这种可望不可及的事情的永远只是少数人啊。我有幸做了点这方面的工作(参见ICCV13 Marr Prize Honorable Mentions 马尔奖_互动百科),希望能继续做下去。长久来说,每五年十年,总有经典之作推动对人工智能的根本认知,我相信将来一定会有一天产生一致认同的基本理论,标志AI的真正成熟。这在自然进化的尺度上,已经是爆炸性的速度了。回顾物理和化学的历史,在学科体系的大厦未建前,也是一样的知其然不知其所以然,众说纷纭。
问题五:计算机系统都是呆板重复的,人工智能不会有像人那样的灵活性。比如说在与人的对话中,人可以观察入微、随机应变,但是计算机只能给出固定答复。
其实几条简单原理便可以创造及其宏大的空间,比如说19路围棋规则简单,但其中变化无穷无尽,比宇宙的基本粒子总和还多得多,在这样的空间里畅游,绝不会有重复之感。人工设计的规则如此,自然界更是如此,碳氢氧氮四个元素,几乎组成了全部有机界。
人和人之间的对话,其传递的信息是非常多的,视觉,听觉,触觉,嗅觉,味觉,都是交流渠道,听觉上只听到你好,但在视觉上看到了愁苦的面容,自然会采取不一样的回答,这个人能做到,机器也是可以做到的。若是只给机器文字信息,那它当然也只能给出相对呆板的回复,给它多通道的输入,它便能在高维空间里找到一个更有人性化的答案来。要分辨两个有细微区别的输入,以决定大为不同的回答,这个在机器学习里用区分式模型便可以做到,并不是难事。
目前(弱)人工智能的难题在于,有非常多(指数多)这样的情况需要处理,一个一个去解决,要么得有大量人工干预,要么得有大量带标定的数据。然而人可以在几个有限的样本下举一反三触类旁通。
我认为,这就是强人工智能和弱人工智能的分界。