AI同声传译为什么成了巨头们都翻不过去的坎儿?

AI又摔了个“跟头”。

在2018年的博鳌亚洲论坛上,第一次出现了AI同声传译。值得注意的是,这是博鳌论坛创办17年来首次采用AI同传技术。然而,在如此重要的场合,现场配备的腾讯AI同传却掉了链子。AI同传词汇翻译不准确、重复、短语误用等“乌龙”引来了嘲笑。

20180923125255760

人们总是把AI和人类职位对立起来,各种“取代论”层出不穷。然而,就目前来看,AI同传前路未明,太早将其与人类同传对立起来实在不明智。

那么问题来了,AI同声传译为什么成了巨头们都翻不过去的坎儿?我们要如何解决AI同传的难题呢?

AI同传进阶之路:如何变智能问题为数据问题

很多人都觉得AI如果要处理自然语言,就必须理解自然语言。实际上,AI翻译靠的是数字,更准确地说是统计。AI同传出错,并不是不够“智能”,而是数据和模型出了问题。

1. AI同传还需要理解力

首先,AI同传要理解场景。在博鳌论坛上,人们在会议中讨论的内容专业度高、覆盖面广,AI对特殊场景的理解还不够。场景对于语义具有至关重要的影响,相同的一句话在不同的场景里有不同的意思。例如“好”这个字有多种意思,它既可以表示称赞,也可以表示状态,还可以表达问好……诸如此类,语义的表达和理解都要结合具体的场景。在具体的句子中,这种语义与情景的结合就更为紧密,更需要机器理解学习。

其次,AI要理解口语的模糊逻辑。口语翻译是不会100%传译的,根据AIIC(国际会议口译员协会)的规定,同传译员只要翻译出演讲者80%的内容就已经算是合格了(90%~100%的“同传”几乎是不可能的)。这意味着AI工作量减少了吗?当然不是,正是这种模糊的东西使得AI同传更加困难。此外,口语没有标点符号来标识句子,缺少了必要的声调和停顿,就很容易引起歧义。而模糊的指令极有可能出现的是满屏的错码。

2. 用隐马尔可夫模型(HMM)解决统计数据之外的语言问题

在参考腾讯AI同传的失误后,我们发现,仅仅增加数据量是不够的,在现实生活中,还会遇到零概率或者统计量不足的问题。

比如,一个汉语的语言模型,就足足达到20万这个量级。曾有人做过这样一个假设,如果除去互联网上的垃圾数据,互联网中将会有100亿个有意义的中文网页,这还是被高估的一个数据。

为了解决数据量的问题,我们认为可以借助隐马尔可夫模型(HMM)。在实际应用中,我们可以把HMM看作一个黑箱子,这个黑箱子可以利用比较简洁的数据,数据被处理后就能得出如下结论:

(1)每个时刻对应的状态序列。

(2)混合分布的均值和方差矩阵。

(3)混合分布的权重矩阵。

(4)状态间转移概率矩阵。

看起来可能比较复杂,简单来说,这个模型可以通过可观察的数据发现这个数据域外的状态,即隐含状态。也就是说,我们可以凭借一句话来弄清楚这句话背后隐含的意思,从而解决一些微妙的语义问题。

如图5-1所示,这个模型能够通过你提供的可以明显观察的句子,推断出一个人的心情状态(开心或难过),并得到最后的行为判断(宅、购物、社交),即通过已知推断出未知。

AI同声传译为什么成了巨头们都翻不过去的坎儿?插图(1)

点击此处添加图片说明文字

如何优化这个模型,得到最优隐含状态?人们提出了许多解决问题的算法,包括前向算法、Viterbi算法和Baum-Welch算法。这其中的奥妙,难以尽述。但不能否认的是,在深度学习的基础上,数据+模型可以很好地打造出一款AI同传翻译,数据越大,神经网络越好。即使翻译出来的结果不尽如人意,但只要我们建设足够大的数据库,建立更好的模型,打磨算法,AI同传很快就会有更大的提升。

如何打造高质量AI同传?

除了增加数据库和打磨数据模型,AI同传还可以从哪些方面提升呢?我们不妨借鉴一下其他的技术。图5-2中,这四个方面代表了人们在NLP领域的一些进步。用金字塔形来表示这四个技术之间的关系,难度是逐级上升的。

AI同声传译为什么成了巨头们都翻不过去的坎儿?插图(2)

点击此处添加图片说明文字

目前,人们在聊天机器人和阅读理解方面已经取得了很大的突破。而AI阅读理解技术的进步不只是NLP的高阶进化,更深一层的意义是,科学之间是相通的,技术之间可以互相借鉴,金字塔顶端技术可以反哺底端。

在自然语言处理上,人与AI的区别是人有经验知识。即人们在听到某个字时,会自然地联想到后一个字,或者会因为一个词触发了一句话的联想。比如,我们听到“中”,既可能想到“国”,也可能想到“间”。但是AI“联想”的词却依靠数据。它说“北”,如果输入的数据不变,那后面跟的就是“京”。

我们曾经在《AI在阅读理解领域开始“跑分”,这个“人类好帮手”还能去哪炫技》一文中总结了AI阅读理解的技术层面,我们或许可以从中得到用AI阅读理解技术反哺AI同传的方法。

AI阅读理解技术的流程如下:Embedding Layer(相当于人的词汇级的阅读知识)→Encoding Layer(相当于人通览全文)→Matching Layer(相当于带着问题读段落)→Self-Matching Layer(相当于人再读一遍进行验证)→Answer Pointer Layer(相当于人综合线索定位答题)。

综合来看,阅读更偏向的是Multi-turn,即做完一次输入输出后,要把结果作为下轮输入的一部分继续输出,系统在运作时需要考虑上下文。而翻译则是Single-turn,即一句话进一句话出。

将这种方法合理利用后,机器翻译即使现在是Single-turn,将来也有可能是Multi-turn。AI同传现在没用到上下文背景,将来它也有可能结合上下文使翻译质量更佳。

如今,创作还是AI正在摸索的领域,而一旦在这个领域有所突破,将一些技术应用到AI同传中,我们或许可以达到翻译的最高境界——“信、达、雅”。

在未来,AI会不会挤占人类同声传译员的位置?

AI同传会取代人类翻译吗?当然不会。先不说语言本身的复杂性,我们可以看看同传的实际应用场景。

在实际工作中,不论是口译还是直接对话,都需要同传来完成,也就是说,AI同传不仅要学会翻译,还要学会聊天。在这方面,机器还有很大的进步空间。那么,AI同传的用处在哪里呢?

1. AI共享同传,仅针对普通人的市场

人们出国旅游常常会遇到语言沟通等问题,然而,并不是每个人都有专业的口语翻译。这时,如果一个可穿戴设备或一部手机就能为你同声传译,想必会减少很多人的出国成本。随身携带一位专属的“同声传译”,是不是很酷呢?

智能硬件一直是AI的热门领域。2018年,微软和华为合作,在Mate 10手机中嵌入了微软的神经网络机器翻译,可以算得上是在终端运行神经网络机器翻译的第一例。

如果AI同传的硬件设备得以普及,商业模式可能转变为以出租或共享为主,即按需求进行租用,有一个专门的技术公司负责租赁,正如共享单车一样,使使用费降到极低。而这类AI的应用场景并不在复杂的会议现场,而是在日常生活、外出旅游等场景中,语料库的建设也会更加简单。

AI同传只会更加惠民,却不会取代如在金融会议、医疗会议中的更加专业的人类同传。

将AI同传与硬件设备相结合,创造切实可用的语音接口,还可以在很大程度上提高用户在移动终端、可穿戴设备、智能家居、智能汽车等智能设备的体验,真正在交互层面实现智能时代的人机结合。

2. AI同传成为同声翻译的考官

同声传译需求量成倍增加,但是合格的同声传译的数量增长却非常缓慢,据了解,现实市场上能够将十句话翻译出十句的同传译员寥寥无几。同时,拥有高级口译资格证书的人并不一定能胜任同声传译,同声传译还需要进行专业的技能训练,而有些合格的同声传译人员也并不一定有口译证书。

目前,我国还没有一个固定的机构来负责同声传译的相关事宜,也没有一套统一的标准对同声传译的工作进行考评。

面对这样的困境,我们或许可以在AI同传上开个脑洞。

人们可以利用AI数字化、标准化等特点,以数据库为依托,将AI训练成单一功能性的考核机器,针对不同的应用场景,对同声传译员进行考核和评级,从而规范人才市场。

这里或许可以参考驾驶培训机器人。驾驶培训机器人包含高精度GPS导航技术、惯性技术和虚拟传感技术、视频检测、数据处理、无线传输、指纹身份识别等高新技术,能够精确记录、判断驾驶人操纵驾驶机动车的真实能力。

同理,AI同传也可以在各种场景中观察、判断考生的翻译能力及考生对翻译规则的熟悉、理解程度。这个系统可以减少考试员的劳动强度和人为因素,确保考试公平、公正,考核方法科学、准确。

简单来讲,我们的目标是通过智能机器,使考核自动化,选拔或训练真正的人才,而并非让它取代人类翻译。

更有意思的是,在考核过程中,AI能不断吸收新“养分”,增加口语类文本语料库,我们何乐而不为呢?

未经允许不得转载:涨姿势 » AI同声传译为什么成了巨头们都翻不过去的坎儿?

赞 (0) 打赏

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏