《自然》5日发表的一篇论文报道了一个Meta人工智能(AI)模型的底层技术。该模型能翻译200种不同语言,增加了机器翻译的语言数量。
神经机器翻译模型利用人工神经网络翻译各种语言。这些模型通常需要大量可在线获取的数据加以训练,但并非所有语言数据都是公开、低成本或是普遍可及的,这类语言被称为低资源语言。一味地增加模型翻译语言数量,可能会影响模型的翻译质量。
此次,Meta的法国研究团队和“不落下任何语言”(NLLB)团队开发了一种跨语言技术,能让神经机器翻译模型学习如何利用翻译高资源语言的预存能力,实现对低资源语言的翻译。研究团队开发了一个在线多语言翻译工具,名为“NLLB-200”。该工具能容纳200种语言,其低资源语言数量是高资源语言数量的3倍,翻译表现则比当今已有系统高44%。
由于团队在许多低资源语言上只能获取1000—2000例样本,为了扩大“NLLB-200”的训练数据量,他们用一个语言识别系统发现了这些特定语言的更多实例。团队还从互联网存档中挖掘双语文本数据,帮助提升其翻译质量。
研究团队指出,这个工具可以帮助很少被翻译的那些语言的使用者,让他们也能用上互联网和其他技术。此外,教育是一个非常重要的应用,因为这个模型可以帮助低资源语言使用者获取更多图书和研究文章。但团队也表示,目前误译的情况仍有可能出现。
《自然》5日发表的一篇论文报道了一个Meta人工智能(AI)模型的底层技术。该模型能翻译200种不同语言,增加了机器翻译的语言数量。
神经机器翻译模型利用人工神经网络翻译各种语言。这些模型通常需要大量可在线获取的数据加以训练,但并非所有语言数据都是公开、低成本或是普遍可及的,这类语言被称为低资源语言。一味地增加模型翻译语言数量,可能会影响模型的翻译质量。
此次,Meta的法国研究团队和“不落下任何语言”(NLLB)团队开发了一种跨语言技术,能让神经机器翻译模型学习如何利用翻译高资源语言的预存能力,实现对低资源语言的翻译。研究团队开发了一个在线多语言翻译工具,名为“NLLB-200”。该工具能容纳200种语言,其低资源语言数量是高资源语言数量的3倍,翻译表现则比当今已有系统高44%。
由于团队在许多低资源语言上只能获取1000—2000例样本,为了扩大“NLLB-200”的训练数据量,他们用一个语言识别系统发现了这些特定语言的更多实例。团队还从互联网存档中挖掘双语文本数据,帮助提升其翻译质量。
研究团队指出,这个工具可以帮助很少被翻译的那些语言的使用者,让他们也能用上互联网和其他技术。此外,教育是一个非常重要的应用,因为这个模型可以帮助低资源语言使用者获取更多图书和研究文章。但团队也表示,目前误译的情况仍有可能出现。
3月18日,记者从山西省人民政府获悉,“山西煤炭工业互联网智算平台”日前在山西联通大数据中心建设完成。该平台由中国联通与山西晋云互联科技有限公司共同打造,是山西省目前唯一的垂直行业类智 竹类植物是竹亚科植物的总称,与水稻、小麦、大麦和燕麦同属于禾本科BOP分支,具有重要的经济、生态和文化价值。为更好地服务竹类植物的系统进化和功能研究,有效整理归纳盘活海量的竹类组学和分 记者从中国科学院金属研究所获悉,该所沈阳材料科学国家研究中心胡卫进研究员与合作者,提出利用缓冲层定量调控薄膜应变,延迟铁电薄膜晶格弛豫从而增强铁电极化强度的策略,成功揭示极化强度同铁电 美国《新闻周刊》网站2月4日刊登题为《人工智能可能会在数十年内解开人体的秘密》的文章,作者是亚历克斯·菲利普斯,内容编译如下:一位医生(同时也是一本关于新兴技术在医疗领域应用的新 近日,我国“主要作物丰产增效科技创新工程”重点专项“优质双季超级稻丰产增效技术研发与集成示范”项目,在湖南岳阳宣布启动。据了解,该项目主要聚焦优质双季超级稻丰产增效技术研发,着力探明双 俄罗斯国家航天集团23日发布消息说,俄当天成功发射了“联盟MS-25”载人飞船。消息说,莫斯科时间23日15时36分(北京时间20时36分),“联盟MS-25”载人飞船搭乘“联盟-2.1a”运载火箭从哈萨克斯坦境 。本文链接:神经机器模型能翻译200种语言http://www.sushuapos.com/show-2-6683-0.html
声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。
上一篇: AI“帮”我还上这张电影票
下一篇: 延缓老年运动能力下降的蛋白找到