南方周末:机器翻译这么渣,还有存在的必要吗?

             

南方周末:机器翻译这么渣,还有存在的必要吗?                                                                                



四月中旬,博鳌亚洲论坛顺利闭幕。同声传译员们也松了一口气,表示暂时不用担心饭碗被抢了。在会议开幕前一天,腾讯旗下的人工智能翻译产品“腾讯翻译君”就宣布,在会议期间,它们将负责现场嘉宾的中英问答同传,并实时开放翻译过程,供各路吃瓜群众围观。然而,会议才刚过了一天,就不断传出腾讯同传“翻车”的消息。先是有网民发现软件在处理中译英时,多次莫名其妙地重复关联词,紧接着到了翻译“一带一路”这一核心概念的时候,又发现软件将其译成“一条公路和一条腰带”和“道路和传送带”,让人啼笑皆非。



不过,虽然腾讯翻译君在会议上尽出洋相,不少科技界的大佬甚至是翻译界的高手都对腾讯翻译君的表现极其宽容。尽管种种事实表明,无论机器翻译再发达,它始终取代不了人工翻译的地位和作用,但大佬们还是心甘情愿地砸钱去研发这项技术。原因很简单:机器翻译,翻的不仅仅是语言,还有人类跨越语言的梦想。


当语言成为门坎


语言多种多样,可它到底是怎么来的,至今还没有一个确切的说法。在著名的圣经故事“巴别塔”中,逃过了大洪水一劫的人类决定修起通天塔。这一举动惹恼了上帝,他大手一挥,让修塔的人使用不同的语言。人们的沟通受阻,修塔只得作罢,而当中讲同种语言的人们则聚集起来形成种族。



事实证明,后来语言真的成为了一种排外的武器。18世纪,英国驻孟加拉法官威廉·琼斯在分析了希腊语、拉丁语和梵语的相似之处后,提出印欧语假说,指出三种语言同源。然而,在殖民主义盛行的当时,这一假说成了西方秀优越的“证据”——在他们看来,虽然他们与印度的语言同源,可他们殖民了印度,比印度强多了。语言也不仅仅被用作东西方较量的工具,在普法战争结束后,法国作家都德就曾在《最后一课》中记录了普鲁士曾强行在占领区推行德语,意图维护其统治。


在种情况下,消除语言带来的隔阂成了曾饱受战火折磨的人类共同的愿望。1887年,俄国犹太裔医生柴门霍夫创立世界语,想着通过推广世界语促进人类交流,从而消除隔阂,实现真正的世界和平。然而,使用世界语的人口实在不多,直到2004年,以世界语为母语的仅有2000多人,将世界语作为第二语言学习的也不过两百万人。


既然世界语行不通,那如何跨越语言的障碍呢?


机器翻译的诞生


在机器翻译诞生之前,人类就有了翻译这一职业,但大学备考四六级的经验告诉我们,别说当翻译了,就连应付一门外语考试也并非易事。然而,随着世界各国在经济、文化等领域的交流越来越频繁,对翻译的需求也越来越多。如果人们能通过使用某件物品获得实时翻译,那是再好不过了。



于是,在1937年的巴黎世界博览会,一件长得像普通打字机的展品引得不少人驻足围观。这件有翻译功能的展品由法裔美国工程师乔治·阿尔楚尼发明。只要输入的某个单词,它就能通过机械操作,转运出另一语言中该单词所对应的词汇的纸张。同一时间,苏联科学家彼得·特罗扬斯基也想出了类似的机器,但特罗扬斯基的设计显然要比阿尔楚尼的要高级:如果说前者是一部重单词翻译的自动双语字典,那么后者不仅能翻译单词,还能把单词语法也给翻译出来。可惜的是,特罗扬斯基由于饱受心绞痛的折磨,这件机器并没有造出来,而他的设计图纸也因此湮没于苏联国家科学院的书海之中,直到1956年才被发现。


1946年,世界上首台现代计算机问世,而在第二年,英国工程师安德鲁·唐纳德·布思和美国数学家瓦伦·维弗相遇,两位天才碰面后便一拍即合,商讨起用计算机实现机器翻译的可能性。1949年,维弗在备忘录中写着:“当我看着一篇以俄语写成的文章,我说‘这是以英语写成,但却以古怪的符号加密。我现在要对它进行解码。’”值得一提的是,维弗提到的“古怪符号”并非信手拈来,这一概念实际上可追溯至17世纪笛卡尔、莱布尼茨等数学家提出的用符号表达不同语言中意思相近的词汇“大同语言”。换言之,就是通过借助统一通用的符号作为中介,将两种语言进行转换。这一理论后来也成为了机器翻译的核心。


1954年,IBM与乔治顿大学合作,建立起一套小型的英译俄机器翻译系统,正式掀开机器翻译研究的序幕。不少国家看中了机器翻译在军事、经济等领域交流的作用,纷纷效仿美国,组织起对机器翻译的研究。然而好景不长,1966年,美国科学院下属的自动语言处理咨询委员会评估了机器翻译的实际效益,指出英语盛行的情况下,美国投入大量资金支持机器翻译,这跟把钱撒入大海无异。受这份报告的影响,不少研究机器翻译的机构的资金大幅度减少,美国的机器翻译研究陷入低谷。尽管如此,不少国家如法国和日本依然坚持对机器翻译的研究,并在70年代取得不错的成果。


上世纪90年代,随着全球化发展,各国跨越语言障碍并进行交流的需求日益迫切,重拾了对机器翻译的热情。在这一时期,互联网的迅速发展不仅促进了微软谷歌等互联网巨头的诞生,也为机器翻译提供了巨大的数据库,发展机器翻译成了不少互联网大佬们的目标。1997年,Systran开发出世界上第一个网页机器翻译工具,附属于搜索引擎AltaVista;1999年,微软开发出微软翻译;2006年,谷歌发布谷歌翻译;2011年,百度推出百度翻译功能。不仅如此,能被机器翻译的语言也日益增多,以谷歌翻译为例,2008年之前仅有23种语言可以被翻译,这数字如今已增至103种。



近年来,趁着人工智能的大势,不少大牛将机器翻译与人工智能相结合,利用人工智能的实时语音和图像识别功能,推出人工智能翻译。2017年9月,百度宣布上架中日智能翻译机,不仅能为前往日本的旅客提供实时语音翻译,还能提供相关旅游资讯;而在国外,掌握人工智能核心技术的三巨头之一的亚马逊也在上月表示,团队正尝试为其智能助理Alexa增加实时翻译功能。


就连在这次博鳌论坛上自打脸的腾讯也不例外。2016年,腾讯宣布上线腾讯翻译君,这款软件以人工智能内核驱动为核心,不仅能实时为用户提供中、英、日、韩四国翻译,还能通过识别语音、图片、文字进行翻译,上线才一周年,日均翻译请求量便达到了2亿次。


再建巴别塔?


在著名科幻小说《银河系漫游指南》中,作者道格拉斯·亚当斯就创造一种名为“巴别鱼”的宇宙生物。这种长得像水蛭的鱼不仅能探测脑电波,还有一项神奇的功能——如果将巴别鱼塞进耳朵,巴别鱼的携带者就能立刻在无翻译的情况下听懂各种语言,而且翻译准确无误。


尽管机器翻译被视为现实版的巴别鱼,但机器翻译却一直受到自身系统的限制,没法像巴别鱼那样做到完美的翻译。自80年代起,机器翻译系统就有规则法,统计法和范例法这三大类。规则法严谨按照“分析、转换、生成”这三步进行翻译,而统计法和范例法则是计算机在收集大量文本的基础上,对文本和语料进行分析和归纳,在翻译时利用计算出的频率“选”答案。尽管这三类翻译系统各有所长——比如,规则法擅长翻译语法,统计法能提高计算机翻译效率,范例法有助于简化翻译步骤——但这三类翻译系统都有着突出的弱点。规则法中的间接翻译容易导致在翻译前后词汇的意思上存有误差, 而统计法和范例法会过于依赖统计数据而忽略实际语境的需要。除此之外,这三种方法均以短语为翻译单元,一旦遇上长句,计算机会自动将句子拆散再翻译各词组,因此常会出现翻译后的句子词义准确,但句子毫不通顺的情况。这些也是造成机器翻译长期不准确的原因。


2014年,美国两位学者发表论文,提出建立神经机器翻译系统的设想。与先前的翻译系统不同,神经机器翻译系统是以句子为基本单元,计算机在翻译过程中会利用计算机的人工神经网络,先去分析和评估句子的特征,再以这些特征作为中介进行翻译。这么一来,翻译自然更为流畅准确。首先从这篇论文中嗅到商机的是谷歌,在研究一番后,谷歌立马召集人才进行开发,不到两年就推出了可供九种语言互相翻译使用的谷歌神经翻译系统。而新系统也不负众望,据统计,近两年来,谷歌翻译的错误率已降低了80%以上。然而,即使是有了如此开挂的系统,谷歌翻译还是逃不过坑人的命运。就在二月初,刚到达平昌准备参加冬奥会的挪威代表团就因为谷歌翻译出错,本来想订1500个鸡蛋,结果却订了15000个。


平昌奥运会挪威代表团因为谷歌翻译出错错订15000枚鸡蛋(推特截图/图)


此外,机器翻译究竟能不能发展到如人工翻译一样做到“信达雅”的程度,还是个未知数。在上个月,微软就公开表示,其新开发的中英新闻机器翻译系统已达人类水平,其翻译效果经过人类盲测评分,质量甚至能和专业翻译不相上下。微软的机器翻译能媲美人类专业翻译固然值得庆祝,但可别忘了,这可只是新闻类的翻译。出于客观准确的要求,新闻稿件的用词文学性不高,因此想要翻准,其实不难。另一方面,尽管有出现像学者暦本純一拿名著《了不起的盖茨比》的片段进行谷歌翻译,并获得质量不错的译文的情况,但问题是,机器翻译本身就是靠语料库运作的,《了不起的盖茨比》《百年孤独》等名著的译本早已成了语料库中的数据,所以与其说机器翻译已进步到能翻文学作品的境界,倒不如说是它的语料库容量已达出神入化的地步。


有趣的是,人类在抱怨机器翻译质量差的时候,却不一定意识到,自己在想法和语言之间互相“翻译”的时候,其实也不一定“翻”得准。在语言学发展史上,人类意识与语言之间的关系向来是研究重点。心理学大师弗洛伊德和雅各·雅克就曾提出,人的意识不一定能完全通过语言表达出来。在心理语言学研究方面,不少语言学家就曾探讨过母语和外语对思维的作用,比如人们熟知的“用外语做决策更能规避风险”这一结论,就反映了语言对意识的影响。除此之外,语境和谈话对象也决定人们在交谈时能否使对方了解自己的想法。如果一个医生对着没有医学知识背景的人说“乙酰水杨酸”,对方不一定能马上反应这指的是阿司匹林。


由此看来,人们之所以发展机器翻译,除了适应时代的需要外,也是想通过不断提高机器翻译的质量,使其达到人类专业翻译的水平,从而映射人类想摆脱语言对自我束缚的决心。在《银河系漫游指南》中,充当完美翻译的巴别鱼尽管成功地让宇宙生物无障碍交流,但无意中也促使宇宙纷争不断,战火连绵。而人类在不断追求完美的机器翻译的同时,也该牢记,发展机器翻译背后所承载的最初的梦想——它代表了人类对平等交流的愿望。


文章转自:南方周末