自动人偶和AI前史

日期:  2024-06-16   作者: 机器人伺服电机维修

  英文automaton意为自动机,自动人偶,该词源于古希腊语αὐτόματον(autómaton),意为 “以自我意志动作”。但其实严格意义上来说,android对于本文中出现的自动机械更贴合。automaton的应用中,有很多类似音乐盒的装置,这和本文探讨的机械还是有不小的差别,虽然究其本质都是对于人类/人形机制的复现/再现,但android的复杂程度却远高于音乐盒。

  “android”这个词源于希腊语,意思是“像人一样”,由法国医生和图书馆员加布里埃尔·诺迪(Gabriel Naudé)创造。他是路易十三的私人医生,后来还成为了儒勒·马萨林(Jules Mazarin)主教拥有四万册藏书图书馆的设计师。诺迪是一位理性主义者,反对迷信。1625年,他发表了一篇为经院哲学家辩护的文章。文中提到了13世纪神学家和哲学家艾尔伯图斯·麦格努斯(Albertus Magnus,大阿尔伯特),据传,他用青铜制作而成了一个机器人。

  这个故事似乎诞生自大阿尔伯特去世很久之后,由15世纪多产的评论家阿方索·德·马德里加尔【Alfonso de Madrigal,也被称为埃尔·托斯塔多(El Tostado)】创作。他改编并润色了中世纪传说中会动的雕像以及能说话的青铜头的故事。

  埃尔·托斯塔多说,大阿尔伯特花了30年时间用金属打造了一个完整的人。这个自动装置为大阿尔伯特提供了所有最棘手问题的答案,甚至在某些版本的故事中,它还欣然口述了大阿尔伯特的大量著作。

  据埃尔·托斯塔多说,这个机器的命运最后终结在了大阿尔伯特的学生托马斯·阿奎那(Thomas Aquinas)的手中。阿奎那因受不了“它的喋喋不休”,将其砸成了碎片。

  他将其与其他自话人头的故事一并斥为“虚假、荒谬和错误的”。诺迪指出,这些装置完全不具备“肌肉、肺、会厌,以及完美发声所需的一切必要器官”。诺迪总结道,根据所有的报告,大阿尔伯特大概确实打造了一个机器人,但却从未能够给他的问题提供明确且清晰的回答。

  阿尔伯特的机器可能更类似于埃及的门农(Memnon)巨像,古代作家们广泛讨论过这种雕像:当阳光照射到它时,它会发出愉悦的低语声,这是由于热量使雕像内的空气“稀薄”,通过小管道排出,从而发出类似低语的声音。

  尽管不相信大阿尔伯特的会说话的头像,诺迪还是给它起了一个强有力的新名字:“android”。通过这一种方式,他巧妙地将一个新术语引入了语言中,因为根据1695年法国哲学家和作家皮埃尔·贝勒(Pierre Bayle)的词典,“android”是“一个完全未知的词,纯粹是诺迪的发明,他大胆地使用它,仿佛其已经被确立”。那是一个新生词汇的有利时机:诺迪的术语迅速渗透到了新词典和百科全书中。贝勒在其词典中的“大阿尔伯特”条目中重复了这一术语。

  于是,“android”在英国百科全书编纂者埃莱姆·钱伯斯(Ephraim Chambers)的《百科全书》补编第一卷中,作为一个词条得以永存——在否定了大阿尔伯特“android”存在的同时,诺迪却赋予了“android”作为一种机器类别的新生命。

  “阿尔伯特·马格努斯会说话的人头”,来自约翰·亨利·佩珀尔(J. H. Pepper)的《百科全书科学简化版》(1885年)。/p>

  历史记录中,包含丰富信息的新实验哲学的第一个实际机器人——诺迪词源意义上的“android”,由“必要部件”组成的工作人形——于1738年2月3日在巴黎左岸一年一度的圣日耳曼博览会展出。

  这个android与早期的音乐自动机、液压风琴和音乐钟上的人物不同,因为它确实执行了它看起来要执行的复杂任务,在这种情况下,它演奏长笛就不单单是做出一些暗示性动作那么简单了。

  这个装置是一种新奇事物,但它对许多集市观众来说一定很熟悉,因为它模仿了著名雕像的样子,该雕像位于杜乐丽花园(Tuileries Gardens)的入口,现在在卢浮宫博物馆:安托万·柯塞沃克(Antoine Coysevox)的《吹笛的牧羊人》(Shepherd Playing the Flute)。

  像该雕像一样,android也呈现为一个半人半羊的牧神——手持长笛的机械牧神。机械牧神突然变得栩栩如生,开始吹奏它的乐器,连续演奏了12首曲子。起初,观众怀疑这一定是个音乐盒,内部有一个自动机制产生声音,而外部人物只是假装在演奏。

  雅克·沃康松的自动机:长笛演奏者,自动排便鸭和铃鼓演奏者。© Wikimedia Commons

  但事实并非如此,android确实在演奏一支真正意义上的长笛,从它的“肺”(三组风箱)中吹出空气,并能灵活运用嘴唇、柔软的舌头和覆盖皮革的手指。甚至有报道称,观众带上自己的长笛,机器也可以演奏。

  这个吹笛android是年轻工程师雅克·沃康松(Jacques Vaucanson)的作品。他是格勒诺布尔一个手套制造商十个孩子中的老小,出生在1709年寒冷的冬天,那时路易十四的长期统治日渐衰落,正值可怕的饥荒和法国战败的最血腥的一年。沃康松在这一黑暗时刻中崭露头角,他的一生与启蒙运动同步,其作品也将成为文学的灵感来源。

  孩提时代,他就喜欢制作钟表和修理手表。上学期间,他开始设计自动机。在里昂短暂的修道生活期间,一位教会要员下令摧毁了沃康松的工作坊,19岁时,他来到巴黎寻求机遇。起初,他想成为一名医生,参加了一些解剖学和医学课程,但很快就决定将这些研究应用于一个新领域:在机器中重现生命过程。

  吹笛演奏者是沃康松5年努力的成果。当它完成后,沃康松向巴黎科学院提交了一份解释其原理的备忘录。这份备忘录包含了已知的第一个关于长笛声学的实验和理论研究。

  在圣日耳曼博览会进行了为期8天的首次展出后,沃康松将他的机器人搬到了市中心一座16世纪建造的豪华大宅——朗格维尔酒店(Hôtel de Longueville)。在金碧辉煌的大厅里,每天约有75人参观,每人支付昂贵的入场费3里弗尔(大致相当于巴黎工人一周的平均薪资)。巴黎科学院的成员也集体前往朗格维尔酒店观看这位吹笛子的android机器人。沃康松每次接待10到15人,向公众解释了吹笛机器人的原理,然后让它开始演奏音乐。

  评论界好评如潮。一位评论家写道:“全巴黎都来欣赏……也许是有史以来最奇特和最令人愉快的机械现象”,并强调该android机器人“确实在吹奏长笛”。另一位评论家也同意这一说法,称其是“有史以来最神奇的机械作品”。记者兼流行作家皮埃尔·德方丹(Pierre Desfontaines)在他的文学期刊中,描述吹笛机器人的内部包含“无数的线和钢链……通过模拟肌肉的扩张和收缩,它们形成手指的运动,就像活人一样。无疑这种基于对人体解剖学的了解……指导了作者在机械方面的设计”。

  在由哲学家、作家狄德罗(Denis Diderot)以及数学家、哲学家达朗贝尔(Jean d’Alembert)编辑的知识普及巨著《百科全书》(Encylopédie)的“android机器人”条目中,沃康松的作品成为了android机器人的典范。该条目由达朗贝尔撰写,将android机器人定义为执行人类功能的人形。

  在巴黎科学院成员在朗格维尔酒店参观后不久,沃康松宣读了一篇关于吹笛机器人设计和功能的备忘录。android机器人由两组齿轮带动的重物驱动。底部齿轮组转动一个带有曲柄的轴,推动三组风箱,连接到三条气管,为吹笛机器人的肺部提供三种不同的吹气压力。上部齿轮组转动一个带有凸轮的圆柱,触发一个控制吹笛机器人手指、气管、舌头和嘴唇的杠杆框架。

  为了设计一台能够吹奏长笛的机器,沃康松对人类吹笛者进行了细致的研究。他设计了很多方法,将他们演奏的方方面面转化到他android机器人的设计中。例如,为了标记小节,他让一位笛手演奏曲调,同时另一个人用锋利的笔尖在旋转的圆柱上打节拍。

  那年冬天,沃康松在展览中增加了两台新机器。其中一台是第二个会演奏音乐的自动人偶,它是一个真人大小的普罗旺斯牧羊人,可用左手握着的笛子吹奏20首小步舞曲,同时用右手击打挂在肩上的鼓。笛子只有三个孔,这意味着音符几乎完全是通过吹气压力和舌头的变化产生的。在努力重现这些微妙之处时,沃康松发现,人类吹笛者使用的吹气压力范围比他们自己意识到的要大得多。

  这个吹笛者还带来了另一个惊人的发现。沃康松原以为每个音符是通过特定的指位和吹气压力的组合产生的,但他发现,每个给定音符所需的吹气压力取决于前一个音符。例如,E音后的D音需要比C音后的D音更多的压力,因此,他必须准备两倍于音符数量的吹气压力。高音符的高泛音在笛子鸣,比低音符的低泛音更强;然而,吹笛者自己并未意识到在补偿这一效果。这种泛音的物理原理,直到1860年代才由赫尔曼·冯·亥姆霍兹(Hermann von Helmholtz)解释清楚。

  这些自动人偶不仅仅制造音乐,毕竟这一成就音乐盒早在两个世纪前就已实现,但android机器人可以通过灵活的嘴唇、舌头、手指和开合的肺部来演奏音乐。它们模拟了人类演奏音乐的过程,随着世纪的更迭,此类模拟设计者们开始转向更复杂的任务,即,制造能够模仿人类语言的机器。

  沃康松的自动鸭:这只自动鸭可以拍打翅膀和跳跃,不过最引人注目的地方在于,可以让其吞咽下一些谷物,观看其消化和排泄的过程。《科学美国人》,1899 年1月21日。© Linda Hall Library

  在沃康松的“自动鸭”首次亮相的次年,即1739年,一位名叫克劳德-尼古拉‧勒卡(Claude-Nicolas le Cat)的外科医生发表了一篇文章(现已遗失),描述了一个“自动人偶,在其中能够正常的看到动物运行的基本功能:循环、呼吸和‘分泌’”。不清楚这个早期项目的后续发展,但勒卡在1744年再次提出这一想法,据鲁昂学院的会议记录记载,他在那里宣读了一篇震惊四座的备忘录。听众说,“勒卡先生向我们讲述了他的自动人计划……他的自动人将具备呼吸、循环、消化、分泌、乳糜、心脏、肺、肝脏和膀胱,以及所有随之而来的功能。”

  勒卡的自动人偶将具备“一个活人所有的操作”,不仅包括血液循环、心脏跳动、肺的运作、食物的吞咽、消化、排泄、血管的充盈和出血耗尽,还包括——显然跨越了机械身体和理性灵魂之间的笛卡尔边界——“甚至言语的发音”。

  虽然一些人仍然认为这是堂吉诃德式的异想天开,但当堂吉诃德自己遇到一个会说话的青铜头(其实就是连接到一个隐藏的人)时,他完全被迷住了,而他那不易受新事物影响的侍从桑丘·潘萨(Sancho Panza)则对其毫无兴趣。塞万提斯的同代人、西班牙作家马丁·德·里奥(Martín del Río)也认为,“无生命之物发出人类的声音并回答问题是不合理的。因为这需要生命、呼吸、完整的生命器官的协同作用,以及说话者的某种逻辑能力。”

  几十年后,德·里奥所说的人工机器似乎是能轻松实现的。阿塔纳修斯·基歇尔(Athanasius Kircher)在1673年写道,关于大阿尔伯特会说话的头颅和古埃及门农巨像的传说,虽然某些怀疑论者认为这些装置“要么根本不存在,要么是欺骗世人的,或者是在恶魔的帮助下制造的”,但许多人相信,可以制造一个具有喉咙、舌头和其他发声器官的雕像,当它被风激活时,可以发出清晰的声音。

  基歇尔附上了一张说话人偶的设计草图。他的学生加斯帕尔·肖特(Gaspar Schott)也是一位多产的自然哲学家和工程师,他甚至提到基歇尔为当时的瑞典女王克里斯蒂娜(Christina of Sweden)建造的一个会回答问题的雕像。毫无疑问,女王的前任哲学老师笛卡尔曾让她对理性言语与机械身体之间的关系产生了兴趣。

  尽管模拟言语的想法并不新鲜,但在18世纪中叶,实验哲学家和机械工程师对它重新产生了兴趣。他们都以为,言语是一种类似于呼吸或消化的身体功能——他们并没明确区分言语的头脑思维和生理机制——即使是怀疑论者也在生理细节上表达了他们的怀疑,而不是原则上的反对。例如,在1738年对沃康松吹笛者的热情评论中,德方丹预测,人工机器永远无法产生清晰的言语,因为说话的物理机制将始终是不可理解的:人们永远无法确切知道“喉部发生了什么……[以及]舌头的动作,下巴和嘴唇的所有变化”。德方丹认为,说话本质上是一个有机过程,只能在活体喉咙中发生。

  德方丹并不是唯一持此看法的人。在当时,对人工言语可能性的怀疑者一致认为,人类的喉头、声道和口腔太柔软、太灵活,无法通过机械方式来模拟。大约在1700年,路易十四的私人医生丹尼斯·多达特(Denys Dodart)向巴黎科学院提交了几篇关于人类声音的备忘录,他认为声音是由声门的收缩引起的,而这些是“无法通过艺术模仿的”。作家兼学者贝尔纳·勒·布耶·德·丰特奈尔(Bernard le Bovier de Fontenelle),当时是科学院的常务秘书,他评论说,没有一点管乐器是通过这样的机制(单个开口的变化)来发出声音的,这似乎“完全超出了模仿的范畴……大自然能够正常的使用我们完全没有办法获得的材料,并且她知道怎么以我们完全没有办法知晓的方式使用它们”。

  最后一位持“材料困难说”的是哲学家、作家安托万·库尔·德·热贝林(Antoine Court de Gébelin),他观察到,“扩散到声门所有部分的颤动,肌肉的抖动,它们与上舌骨的撞击,后者上下运动,空气在口腔两侧的回响……这些现象”只能在活体中发生。

  也有很多人不同意这一观点。例如,好辩的唯物主义者朱利安·奥夫雷·德·拉·梅特里(Julien Offray de La Mettrie)看了沃康松的吹笛者后就认为,说话机器“不再被认为是不可能的”。

  在17世纪最后的30年,有几个人开始从事人工言语的项目。他们都认为,口语的声音需要一个尽可能类似于喉咙和口腔的结构。这种认为说话机器需要模拟发声器官的假设,并不总是主导着关于人工言语的思考。

  1648年,皇家学会的首任秘书约翰·威尔金斯(John Wilkins)描述了一座说话雕像的计划,该雕像将利用“不清晰的声音”来合成言语,而不是模拟:“我们大家可以注意到,水的波动就像字母L,热物体的熄灭声像字母Z,弦乐的声音像字母Ng(原文如此),鞭子的抽动声像字母Q,诸如此类。”

  但在1770年代和80年代,说话机器的建造者们大多认为,不建造一个会说话的头就不可能创造出人工言语:要复制发声器官并模拟说话的过程。

  第一个尝试制造这种机器的是英国诗人、博物学家伊拉斯谟·达尔文(Erasmus Darwin,查尔斯·达尔文的祖父),他在1771年报告说,他“设计了一张木制的嘴,嘴唇是柔软的皮革,背部有一个阀门作为鼻孔”。达尔文的说话头用“丝带……拉伸在两块略微凹陷的光滑木头之间”作为喉部。它用“非常哀怨的语调”说“mama, papa, map and pam”。

  下一个模拟言语的是法国人米卡尔神父(abbé Mical ),他在1778年向巴黎科学院展示了一对会说话的头像。头像内包含“几个人工声门,以不同形式排列在绷紧的膜上”。通过这一些声门,两个头像进行了一段赞美路易十六的对话。其中一个头像说,“国王给欧洲带来了和平,”另一个头像回答:“和平为国王带来荣耀,”第一个头像补充道,“和平带来了人民的幸福,”第二个头像总结道,“哦,国王,您是人民可爱的父亲,他们的幸福向欧洲展示了您王座的荣耀。”

  巴黎的八卦作家路易·贝蒂·德·巴肖蒙特(Louis Petit de Bachaumont)指出,这些头像有真人大小,但外观却镀着俗气的金子。它们含糊地说了一些词,吞掉了某些字节;此外,它们的声音沙哑,措辞缓慢。

  尽管如此,它们无可否认地拥有“说话的能力”。被任命检查米卡尔说话头像的学者们一致认为,它们的发音“非常不完美”,但仍然对这项工作表示认可,因为它模仿了大自然,并包含了“我们在解剖……声音器官时所看到的相同结构”。巴肖蒙特记录说,学者们对米卡尔神父印象非常深刻,以至于在1783年9月19日凡尔赛的蒙特哥尔菲尔热气球演示活动中,一只羊、一只公鸡和一只鸭子变成全球上第一批航空乘客时,科学院的6位代表邀请米卡尔陪同他们,并向国王介绍了这位著名说话头像的制造者。

  次年,可能是在数学家莱昂哈德·欧拉(Leonhard Euler)的建议下,圣彼得堡科学院赞助了一项奖项比赛,旨在确定元音的性质并构建一个类似于人声管风琴管的乐器来表达它们。科学院成员C.G.克拉岑斯坦(C. G. Kratzenstein)赢得了该奖项。他使用了根据发音时舌唇及口腔位置变化的人工声门(簧片)和风琴管。

  1791年沃尔夫冈·冯·肯佩伦(Wolfgang von Kempelen)关于说话机器部件的设计。风箱充当肺部,将空气输送到配有振动簧片的发声器官中,振动簧片的声音通过开闭阀门来控制。图中没有显示橡胶“嘴”的附件,它通过一个带有类似鼻孔的轮缘连接到“o”。© digital.slub-dresden.de

  在世纪之交前,又有几个人制造了说话的头像。其中有一位匈牙利工程师沃尔夫冈·冯·肯佩伦(Wolfgang von Kempelen),在21岁时,他被玛丽亚·特蕾西亚(Maria Theresa)女皇聘请到神圣罗马帝国宫廷工作。

  土耳其下棋人偶:这台机器似乎能够与人类对手下一场激烈的国际象棋比赛,但实际上它只是对机械自动化的复杂模拟:隐藏在柜子里的人类国际象棋大师通过一系列杠杆从下面操纵土耳其人机器人。© digital.slub-dresden.de

  1769年,他因制造了一个会下棋的土耳其人偶(内部巧妙隐藏着一位棋艺高超的人类棋手)而成名。几十年后,肯佩伦开始探索清晰言语的秘密。

  1791年,他发表了“一个说话机器的综述”,报告称他将风箱和共鸣器连接到类似人声的乐器上,如双簧管和单簧管;他还尝试了像克拉岑斯坦那样,改造人声风琴管。在20年的尝试中,他一直坚信,“言语是可以模仿的”。

  最终的装置,有作为肺的风箱,一个象牙制的声门,一个带有铰链舌头的皮革声道,以及带有橡胶口腔的嘴,嘴的共鸣能够最终靠开闭阀门来改变,还有两个小管作为鼻孔。设备上有两根杠杆连接着哨子,第三根杠杆则与可以放到簧片上的一根线相连。这些使其能够发出流音和摩擦音:Ss、Zs和Rs。

  这台机器让人想起沃康松的发现(对于一个给定音符的吹气压力取决于前一个音符)。肯佩伦报告说,他首先尝试独立地发出给定单词或短语中的每个声音,但失败了,因为连续的声音需要彼此调整才能正确发音:“语音的清晰度只有在它们之间的比例关系和整个单词和短语的连接中才能显现出来。”听着他的机器模糊的语音,肯佩伦意识到语言机械化的另一个限制:对语境的依赖。

  肯佩伦的机器只能算是取得了一定意义上的成功。据报道,它用稚嫩的声音唧唧喳喳地念着元音和辅音,能发出“妈妈”和“爸爸”等单词,并能含糊地说出一些短语,例如“你是我的朋友——我全心全意地爱你”,“我的妻子是我的朋友”,以及“跟我去巴黎吧”。如今,这台机器保存在德国慕尼黑的德意志博物馆。

  肯佩伦和他的支持者们强调,这个装置是不完美的,它本身并不是一个真正的说话机器,而是一个展示了制造说话机器可能性的装置。

  在1770年代、80年代和90年代的这段繁荣期之后,人们对言语模拟的兴趣有所下降。

  19世纪的一些人,包括发明家查尔斯·惠斯登(Charles Wheatstone)和亚历山大·格雷厄姆·贝尔(Alexander Graham Bell),制造了他们自己的版本的说话机器。但大多数情况下,人工言语的设计者们再次将注意力转向言语合成而不是模拟:通过其他手段再现人类言语的声音,而不是试图再现实际的发声器官和生理机制。

  1828年,早先曾否定国际象棋机器人智能可能性的剑桥应用力学教授罗伯特·威利斯(Robert Willis)轻蔑地写道,大多数研究元音的人“似乎从未超越发声器官来探究它们的起源”,这显然假设了元音离开发声器官就不能存在。换句话说,他们将元音视为“人体的生理功能”,而不是“声学的一个分支”。

  威利斯认为,元音声可完全通过其他手段产生。无论发声器官本身是不是能够人工模拟,这已成为一个与是不是能够再现言语声音分开的独立问题。即便到了1850年,法国生理学家克劳德·贝尔纳(Claude Bernard)在笔记中写道:“喉头是喉头,晶状体是晶状体,也就是说,它们的机械或物理条件只有在活体中才能实现。”

  约瑟夫·法贝尓制作的会说话的人头“优佛尼亚”(Euphonia)。© wikimedia

  人们对言语模拟的失望如此之深,以至于当一位移民美国的德国人约瑟夫·法贝尓(Joseph Faber)在19世纪40年代末设计了一台相当令人印象非常深刻的说话头像时,没有人对此表示任何关注。法贝尓的说话头像以肯佩伦和米卡尔的模型为参照,但要复杂得多。它有人的头部和躯干,再次装扮成土耳其人的模样,内部装有风箱、声门、舌头、可变共鸣腔,以及带有橡胶下颌和面颊的口腔。这台机器可以发出所有的元音和辅音,并通过杠杆连接到一架17键的键盘上,法贝尓可以像弹钢琴一样弹奏它。

  1844年,法贝尓首次在纽约市展示了这台机器,但就没有引起公众的兴趣。随后他带着它来到费城,在那里也反响平平。P.T.巴纳姆(P. T. Barnum)在费城找到了法贝尓,给该机器起名为“优佛尼亚”(Euphonia),并带着它去伦敦巡演,但即使是巴纳姆也没能让它取得成功。最后,优佛尼亚在19世纪70年代末在巴黎展出,不久之后所有关于它的报道都消失了。

  说话头像的时代已逝去。在20世纪初期,人工言语的设计者们从机械转向电子言语合成。模拟发声器官和说话过程——颤抖的声门、可塑的声道、柔软的舌头和口腔——是18世纪最后几十年的特定现象,当时哲学家和机械师短暂地痴迷于这样一个想法:清晰的语言是一种身体功能,笛卡尔在心灵与身体之间的鸿沟可以在发声器官中得到弥合。