编者按:人工智能的一些表现令人赞叹。但是它们是如何实现这些成就的过程在人类眼里却是个黑箱。技术作家及艺术家James Bridle最近出版了一本反映机器崛起的新书,《New Dark Age(新黑暗时代)》。其中对机器如何思考的探讨令人感到气馁——借用科幻作家Iain M. Banks的话来说,在超智机器的脑子里有一个无限有趣的空间,这个地方是人类永远也无法进入的。
1997年,纽约,现任国际象棋世界冠军卡斯帕罗夫在跟深蓝对阵,后者是IBM专门设计用来击败他的计算机。上一年在费城举行的一场类似比赛中,卡斯帕罗夫以4:2获胜,这位被广泛视为有史以来最伟大的国际象棋大师对获胜很有信心。所以当输掉比赛时,他宣称深蓝的其中一些走法太过智能且富有创意了,所以一定是有人干预的结果。不过我们知道为什么深蓝会走出那些下法:它选择下法的过程其实是一种暴力破解,由14000颗定制设计的国际象棋芯片组成的大规模并行架构,每秒钟能够分析2亿种盘面状态。比赛那时候,它在地球最强大计算机的排名是第259位,而且纯粹是为国际象棋设计的。在选择下一步怎么走的时候它脑子里可以计算更多的结果。卡斯帕罗夫不是思路不够,只不过是被火力压制住了。
相比之下,当Google Brain驱动的AlphaGo软件击败围棋世界冠军李世石时,情况变了。在5番棋的第二局,AlphaGo走出了一步令李世石和观众感到震惊的棋,它把一颗子下到了棋盘的远端,似乎要中途退赛的感觉。一位评论说:“这是非常奇怪的一步,我认为这是个错误,”另一个人说。樊麾,另一位经验丰富的围棋选手,6个月前不幸成为了第一个输给AlphaGo的职业棋手,他对此的评论是:“这步棋不是人走的。我从来没见过人有这种下法。”他还补充说:“下得太漂亮了。”在这项有2500年历史的游戏里,还没人会这么下过。AlphaGo后来势如破竹,不仅赢下了这场比赛,也包括后来的系列赛。
AlphaGo的工程师开发该软件是靠这个,一个含有专业棋手数百万下法的神经网络,然后让它左右手互搏数百万次,从而形成了超越人类棋手的策略。但是它的这些策略的表现是很难辨认的:我们能看到它的下法,但看不到它是如何做出决定的。AlphaGo的各个部分之间互搏时下出来的步法,其复杂性也不是我们能想象得到的,但我们不大可能看得见和欣赏它们;想要对这种复杂性进行量化也不可能,它只有取胜的直觉。
杰出的科幻作家Iain M. Banks把这些招式的发生地称为“无限有趣空间(Infinite Fun Space)”。在Banks的科幻小说里,他的《文明》里面的文明是由仁慈、超智的AI来管理的,这种AI就叫做Mind。尽管这些Mind原先是由人创建的(或者至少是一些生物性的碳基实体),但很久以前它们就已经超越了自己的创建者,然后对自己进行重新设计和建造,不仅变得高深莫测而且无比全能。除了控制飞船和星球,指挥作战,照顾数十亿人类以外,Mind也有自己的乐趣,其中就包括超出人类理解范畴的推测计算。由于能够在自身想象中模拟整个宇宙,一些Mind永远地撤到了这个无限有趣的空间,这是一个只有元数学可能性的领域,只有超级人工智能才能进入。至于剩下的我们,如果我们摒弃那道拱门的话,留给我们的只有有限乐趣,徒劳地分析机器做出的、超出我们理解的决定。
如果不是被迫要将自己的梦展示给我们看的话,机器就会进一步深入到自己的想象空间,进入我们到不了的地方。
不过一些机器智能的操作并不局限在无限有趣空间里面。相反,它们在我们的世界上创造出一种未知(unknowingness):新的图像;新的面孔;新的、未知的或者假的事件。就像语言可以充当他人意思的无限网格一样,同样的做法也可应用到一切可用数学表示的地方——也就是多维空间里面的一个由加权连接组成的网络。从人体得到的词仍然有联系,即便被剥夺了人类的意思,根据那个意思的数字就可以进行计算。在语义网络中,力线——向量——定义了单词“皇后”与那些阅读次序为“皇帝 – 男人 + 女人”的单词是一致的。按照此类向量的路径,这种网络能够推断出“皇帝”与“皇后”之间存在着一种性别关系。对于人脸也能做同样的事情。
对于给定的一组人的图像,神经网络可以执行一种新的计算,这种计算不仅仅会按照这些力线的路径去走,还会生成新的结果。就像2015年Facebook研究人员发表的一篇论文所展示那样,微笑的女性、不笑的女性以及不笑的男性的一组照片经过计算可以得出微笑男性的全新图像。利用一项大规模图像识别挑战超过300万张卧室图片的数据集,他们的网络生成了新的卧室:那些颜色和家具的布置在现实世界里是找不到的,那是卧室向量的交集:墙,窗户,羽绒被以及枕头。机器梦想出了做不出梦来的梦幻房间。不过令人印象深刻的是那一张张类似我们的脸:这些人是谁,他们笑什么?
当机器梦想出来的这些图像开始跟我们的记忆交织在一起时,事情开始变得更加奇怪。2014年从法国家庭度假回来时,伦敦大学学院人工智能研究人员Robert Elliott Smith带回来了满满一手机的照片。他把其中一些上传到了Google+上,好跟妻子一起分享,但是在浏览照片的时候他发现了一些异常。在其中一张照片中,他看到自己跟妻子坐在一家饭店的桌子旁对着镜头笑。但是他印象中自己从来没拍过这张照片。一天午饭,他父亲按住iPhone的按钮稍微久了一点,结果就得出了相同场景下的一系列照片。Smith将其中2张上传,想看看妻子更喜欢哪一张。其中一张是他笑妻子不笑,另一张是妻子在笑但他没笑。通过这两张照片,Google的排序算法只需几秒钟就召唤出了第三张:双方均笑得“最好”的合成照片。该算法是名为AutoAwesome(后来改名为“Assistant”)的软件包的一部分,它会对上传的照片进行一系列的调整,让它们看起来更加“出色”——其中应用了怀旧的滤镜,将其变成迷人的动画等等。但这一次,结果是一张从未发生过的定格照片:一次雪茄的记忆,一个重写的历史。
照片的修复是一项跟这种媒介本身历史同样悠久的活动,但这一次的操作是自动进行的,在个人记忆的产物中是不可见的。尽管如此,我们从中还是能学到一点什么:这说明了图像其实永远都是假的,人为的片刻之间的快照从来都无法从多维的时间洪流中剥离出来,作为奇点而存在。不可靠的记录;相机与注意力的合成。这些不是世界和存在的人为产物,而是记录过程的产物——而这个过程作为一种虚假的机制,是永远也无法逼近现实本身的。只有当捕捉和和存储的过程用技术具体化时,我们才能精确地感受到它的不真实,才能感受到它与现实的差异。这是我们可以从梦想机器中吸取到的教训:不是说它们重写了历史,而是历史本来就不是可以可靠地叙述的东西,因此,未来也是如此。通过人工智能向量映射而来的照片构成的不是一份记录,而是一种持续的重新想象,一种不断变化的曾经发生过什么以及将会发生什么的可能性。这个可能性的云,永远的因情况而异以及朦胧性,对于现实而言,其实是比任何物化的断言都要好的模型。而这朵云是由技术来披露的。
由机器来阐明我们的无意识的最佳示例也许是Google机器学习研究的另一项怪异的结果:一个叫做DeepDream的程序。DeepDream这东西的目的就是为了更好地说明高深莫测的神经网络的内部机制。为了学会识别对象,需要灌输给神经网络数百万的有关事物的标签图像:树木、汽车、动物、房子等。系统接触到一幅新的图像时,会对图像进行过过滤、拉伸、拆分和压缩以便进行分类:这是一棵树,这是一辆汽车,这是一个动物,这是一栋房子。但DeepDream颠倒了这个流程:它先是在网络的末梢输入一幅图像,然后激活受训识别特定对象的神经元,它问的不是这幅图像是什么,而是网络希望在里面看到什么?这个过程类似于在云彩当中看到一张张脸一样:视皮质因为对刺激的渴望,会在噪声中产生出有意义的模式。
DeepDream的工程师Alexander Mordvintsev是在凌晨2点的时候开发出该程序的第一个迭代版本的,当时他因为做噩梦被惊醒了。他灌输给神经网络的第一幅图像是一只小猫坐在树桩上,输出是一头可怕的怪物:有很多双眼睛,脚上长着湿鼻子的猫狗混种。2012年,Google首次发布一个基于1000万随机YouTube视频的未经训练的分类器网络时,在没有任何提示的情况下它学会识别的第一个东西就是一张猫脸:这是互联网的灵兽。Mordvintsev的网络因此梦想出了它知道的东西,也就是更多的猫和狗。进一步的迭代产生耶罗尼米斯·博斯地狱逃亡式的无限结构,是被激活的神经元而定,里面有拱门、塔、桥等分形的层层推进。但DeepDream的创作自始至终有一点是不变的,那就是眼睛——狗的眼睛,猫的眼睛,人的眼睛;网络本身无所不在的时刻盯住你的眼睛。漂浮在DeepDream的天空中的眼睛让人想起了敌托邦宣传里面的全视之眼:Google自身的无意识,由我们的记忆和行动组成,被不断的分析处理,为了公司利润和私营情报而跟踪。DeepDream天生就是一台偏执狂机器,因为它出现的地方就是一个偏执狂世界。
与此同时,在不需要被迫将它们的梦境展现给我们看时,机器会进一步深入到自己的想象空间,那是我们无法进入的地方。Walter Benjamin在《译者的任务》里面的最大希望,是语言之间的传输过程会催生出一种“纯语言(pure language)”——全世界所有语言的混合物。正是这种语言才能充当译者的翻译介质,因为它揭示的不是意思而是说话者的思维方式。根据2016年Google Translate神经网络的激活方式,研究人员意识到这个系统能够翻译的不仅仅只是语言之间的两两互译,而是所有语言之间的互译;也就是说,它可以直接在两种自己从未明确比较过的语言之间进行翻译。比方说,基于日英互译和英韩互译语料受训的网络可以生成日韩互译而不需要经过英语。这叫“零数据(zero-shot)”翻译,这意味着“中介语”表示的存在:一种内部的由跨语言共享概念构成的元语言。
无论从哪一方面来说,这几乎就是Benjamin的纯语言;是这种架构无意义的源语言。通过将该网络及其向量的结构可视化为各种颜色和线条,就有可能看到多种语言的句子聚合到一起。其结果是一个语义化的表示,而这种表示是由网络演变而来,而不是设计进网络里面的。但再次地,我们对它的理解只能取决于我们能多靠近地一窥那无限乐趣之地——那个我们永远也无法拜访的地方。