欢迎来车东西
登录
免费注册
我的订阅
关注我们
智东西
车东西
芯东西
智东西公开课
Facebook百种语言互译模型源代码公开
2020-10-24
智东西
20
10月23日消息,Facebook近期开源其M2M-100源代码,这是首个可以不依赖英语数据而可以实现100个语言对互相翻译的机器翻译模型(如中文-法文互译为一个语言对)。在训练2200种语言对后,该单一多语言模型不仅与传统的双语模型性能相当,同时也比以英语为中心的多语模型在机器翻译评价指标BLEU上提高了10%。
为了实现多语言不依赖英语互译,研究人员使用不同的挖掘策略构建了首个真正的多对多翻译数据集,再通过Fairscale等扩展技术建立具有150亿个参数的通用翻译模型,使M2M-100可以从大量语言数据库中学习,并反映出更加多样化的语言文字和词法。