(相关资料图)
编程客栈() 10月20日消息:Meta 推出名为「S2UT」(speech-to-unit translation) 的翻译技术,将使原本没有特定文字书写记录的语言,可以直接通过语音对语音翻译方式转换成另一种语言,例如将中国台湾等亚洲地区众多人使用的闽南语直接翻译成英语,同时也能将英语直接翻译成闽南语。
据介绍,为开发这个只有语音的全新翻译系统,Meta AI 研究人员必须克服许多来自传统机器翻译系统的挑战,包括数据收集、js模型设计以及准确度评估。其中一个重大障碍在于是否能够收集到足够的数据,由于闽南语是所谓的资源匮乏语言,未有足够的训练数据;此外,能将英语翻译成闽南语的翻译人员相对较少,因此更难以收集数据资料并加上注解来训练模型。为此 Meta 利用中文作为中间语言,以建立伪标签和人工翻译,也就是说先将英语(或闽南语)语音翻译成中文文字,接着再翻译成闽南语(或英语),然后新增至训练数据中。
另一种产生训练数据的作法是语音探勘,Meta 使用预先训练好的语音编码器,便能通过编码方式将闽南语语音嵌js入内容加入到其他语言的相同语意空间中,而无须取得闽南语的书写文字。闽南语语音可以和拥有相似语意嵌入内容的英语语音和文字配对。接着 Meta 从文字来合成英文语音,产生平行的闽南语和英语语音。
扎克伯格宣布,Meta 接下来将对外开放名为「LASER」的自然语言处理工具,所打造 SpeechMatrix 大型语音对语音训练模型,让更多研究人员可以建立众多无法通过文字记录的语言,让更多语言可以通过人工智能方式翻译成其他语言。
扎克伯格演示可翻译闽南语的 AI 翻译技术:javascript
https://www.Facebook.com/4/videos/2725795187550922/