点击阅读英文原文
过去5年里,机器学习取得了惊人进展。这种形式的人工智能已经在自动驾驶、自动文本生成和(多语言间的)机器翻译等领域取得了重大飞跃。
谷歌翻译是机器翻译领域最明显的一个例子。尽管它很有用,但仍会犯一些相当基础的错误。例如,它正确地把“我所关闭的窗户”翻译成法语的“la fenêtre que j'ai fermée”,但却错把“我找到的钥匙”翻译成“la clé que j'ai trouvé”。
任何学习过A Level法语的人都会告诉你,avoir的动词过去分词必须与动词前面的直接宾语一致。“clé”是阴性词,所以“trouvé”后面要多接一个“e”。用类似的句子测试,谷歌的短语翻译正确率约为50%,这个数字并不高。
对于像我这样在机器学习领域工作了30年的人来说,这并不奇怪。在学习阶段,翻译的好坏取决于提供给机器学习算法的数据。谷歌翻译不懂法语语法:它通过粗暴地重复范例序列来学习。显然,谷歌的训练数据中没有足够的阴性名词为宾语的短语接avoir的例子,所以它不能每次给出正确的翻译。
我的书架上放着一本我在上世纪80年代末开始试验机器学习时买的书(当时这一领域被称为“人工神经网络”或“连接主义”)。在这本叫做《思考机器》(Thinking Machines)的书中,作者描述了哲学家约翰·赛尔(John Searle)在1980年提出的“中文房间”(Chinese Room)思维实验。一串串中文字符从房间的门下通过(“输入问题”),按照指令通过一个计算机程序操纵这些中文字符,不会说中文的赛尔可以按合适的序列把它们从门下发送回去(“输出答案”),从而说服房间外的观察员,房间里有一个会说中文的人。
在他的思维实验的最后,赛尔问,是否可以说这个计算机程序理解中文(“强人工智能”),还是它只是模拟了这种能力(“弱人工智能”)?正如我使用谷歌翻译的经历所揭示的,即使今天由数据驱动的机器学习算法与20世纪80年代早期的符号操作程序完全不同,这个问题现在仍存在。
在机器学习领域内,焦点几乎完全集中在构建越来越令人印象深刻的演示程序上,比如DeepMind的研究人员在比赛机器上的工作。2016年,他们的AlphaGo机器学习算法击败了世界上最好的围棋选手。AlphaGo Zero和AlphaZero随后超越了AlphaGo,生成了自己的训练数据集,结合了深度神经网络、强化学习和专门针对比赛的表达,实现了“超人”的表现。两台AlphaZero机器进行了数百万场比赛,它们探索了巨大的可能性空间,并能够做出人类棋手无法预判的举动。但是AlphaZero对围棋的理解并不比谷歌翻译对法语或语法的理解多。
当今最强大的机器学习模型GPT-3被用于数百个文本生成应用程序,如聊天机器人。他们每天产生近50亿个单词,但是GPT-3真的能理解它自动生成的文本吗?
在学习算法、计算硬件和训练数据的规模方面,我们取得了非凡的进展。但与30年前相比,我们是否更接近于创造会思考的机器(无论我们称之为强大人工智能、通用人工智能还是超级智能)?学习如何翻译语言、玩需要智力的游戏或根据提示自动生成文本的能力能证明什么?弱人工智能的巨大成功?还是强人工智能的开端?
这样的辩论应该在高等教育中进行,特别是在面对面的研讨会和工作坊中。华盛顿大学(University of Washington)的语言学家艾米丽·本德(Emily Bender)去年用她的“章鱼测试”(octopus test)更新了“中文房间”的思维实验,以强调形式和意义的联系的重要性。住在偏远岛屿上的两个人通过海底光缆互相发送短信。一只章鱼监听这些脉冲,然后切断其中一个岛民的线路,并试图通过窃听光缆来模仿他们。当其中一位岛民向另一人发送应该如何建造椰子弹射器的说明,并同时询问应如何改进设计的建议时,会发生什么?
然而,我们很少有机会与计算机科学系机器学习研究人员就这些深刻的问题展开对话,因为他们中的大多数人都忙于跟上大型科技公司的步伐,同时培养博士生——这些博士生很快就被这些公司不断扩张的实验室所吸收。
在一个充斥着聊天机器人和自动驾驶汽车的世界里,关于人工智能/机器学习的局限性的基本问题迫切需要重新审视,并从多个学科的角度进行深入探讨。学术界的机器学习研究者应该与哲学、语言学和认知科学的同行进行新的对话。牛津大学(University of Oxford)最新的鲁本学院(Reuben College)打算在促进这些多学科交流方面发挥自己的作用。
莱昂内尔·塔拉申科是牛津大学鲁本学院的院长。
本文由陆子惠为泰晤士高等教育翻译。