Google Brain用大规模神经机器翻译架构分析
雷锋网编者按:十年前,Google Translate发布。当时,这项服务背后的核心算法还是基于短语的机器翻译。
而十年后的今天,更先进的神经网络机器翻译( Neural Machine Translation)技术已经使得翻译系统的速度和准确度有了大幅提升。Google发现,在多个样本的翻译中,神经网络机器翻译系统将误差降低了 55%-85%甚至以上。
虽然成就喜人,但这对研究人员来说却远远不够。在他们看来,NMT领域还有太多可提升的空间。
近日,来自Google Brain的四位研究人员Denny Britz, Anna Goldie , Thang Luong, Quoc Le就由NMT训练成本太高这一问题出发,对NMT 架构的超参数进行了大规模分析,并且对建立和扩展NMT构架提出了一些新颖观点和实用建议。研究人员表示,学界还未有过类似的研究。
同时,该论文也已提交了今年的ACL大会(Association for Computational Linguistics)。
以下是为雷锋网(公众号:雷锋网)编译的部分论文内容。
摘要
在过去几年里,基于神经机器翻译(NMT)技术的产品系统被越来越多部署在终端客户端中,NMT本身也因此获得了巨大进步。但目前,NMT构架还存在着一个很大的缺点,即训练它们的成本太高,尤其是GPU的收敛时间,有时会达到几天到数周不等。这就使得穷举超参数搜索(exhaustive hyperparameter search)的成本和其他常见神经网络结构一样,让人望而却步。
为此,我们首次对 NMT 架构的超参数进行了大规模分析。我们报告了数百次实验测试的经验结果和方差数(variance numbers),这相当于在标准WMT英译德任务上运行超过250,000 GPU小时数的效果。从实验结果中,我们提出了有关建立和扩展NMT构架的创新观点,也提供了一些实用建议。
作为此次研究成果的一部分,我们也发布了一个开源的NMT框架,让研究员们能轻松使用该新技术,并得出最新试验结果。
研究结论
在研究过程中,我们通过梳理关键因素,以获得最新的实验结果。
有些研究人员可能并不认为“集束搜索调节(beam search tuning)和大多数架构变化同等重要”,以及“使用了当前优化技术的深度模型并不总是优于浅度模型”等说法,但通过实验,我们为这类说法给出了实验证据。
以下是实验收获总结:
使用 2048 维的大型嵌入(embeddings)有最优实验结果,不过优势不大;仅有 128 维的小型嵌入似乎也有足够的能力去捕捉绝大多数必要的语义信息。
LSTM Cell 始终比 GRU Cell表现得好。
2-4 层的双向编码器性能最佳。更深层的编码器在训练中不如2-4层的稳定,这一点表现得很明显。不过,如果能接受高质量得优化,更深层的编码器也很有潜力。
深度 4 层解码器略优于较浅层的解码器。残差连接在训练 8 层的解码器时不可或缺,而且,密集的残差连接能使鲁棒性有额外增加。
把额外的关注度参数化(Parameterized additive attention),会产生总体最优结果。
有一个调适良好、具有长度罚分(length penalty)的集束搜索(beam search)很关键。5-10集束宽度搭配1.0长度罚分的工作效果好像不错。
我们还强调了几个重要的研究课题,包括:
高效利用嵌入参数 (4.1)(雷锋网注:4.1代表论文章节,下同)
注意机制(attention mechanisms)作为加权跳过连接(weighted skip connections)(4.5),而不是记忆单元的角色作用,
深度循环网络需要更好的优化方法(4.3),
超参数变化(hyperparameter variations)还需要更具稳健性的集束搜索(4.6)。
此外,我们还专门发布了一个开源NMT框架,让大家能对该框架的创新点一探究竟,并进行可重复试验,同时我们还发布了所有实验配置的文件。
您可能也感兴趣:
官方微博/微信
每日头条、业界资讯、热点资讯、八卦爆料,全天跟踪微博播报。各种爆料、内幕、花边、资讯一网打尽。百万互联网粉丝互动参与,TechWeb官方微博期待您的关注。
想在手机上看科技资讯和科技八卦吗?
想第一时间看独家爆料和深度报道吗?
请关注TechWeb官方微信公众帐号:
1.用手机扫左侧二维码;
2.在添加朋友里,搜索关注TechWeb。
为您推荐
雷军:小米SU7定价时最纠结的是盈亏点
最终悬念,小米SU7卖多少钱合适?
恒大汽车 2023 年净亏损 119.95 亿元,努力改善经营状况
日赚0.82亿 比亚迪2023年净利润300.41亿元,同比大涨80.72%
苹果WWDC 2024将于6月10日举行,或将推出生成式AI技术
苹果A18 Pro芯片细节曝光:采用更大尺寸 以提升AI性能
阿里撤回菜鸟上市申请 拟37.5亿美元收购菜鸟少数股东股权
AI造富能力一流
飞书开启裁员 全员信称会提供补偿方案或转岗机会
更多
- 投行分析师预计特斯拉Q1交付42.5万辆到47.5万辆电动汽车
- 消息称苹果可折叠屏iPhone遇到技术挑战 将推迟到2027年一季度发布
- 苹果新一代iPad Pro和iPad Air下月或无望 消息称要到5月初
- 全球生成式人工智能领域去年或有近700笔投资交易 总额291亿美元
- 华尔街预计特斯拉Q1交付47.1万辆电动汽车 但也有分析师预计低于43万辆
- 苹果WWDC24还有望推出Mac Studio 但Mac Pro可能要下半年
- 亚马逊再向AI初创公司Anthropic投资27.5亿美元 兑现40亿美元投资承诺
- 消息称苹果在测试一款新Apple Pencil 有望用于Vision Pro
- 现代汽车计划到2030年将电动汽车增至31款 韩国年产能增至151万辆
- 消息称苹果没有在iOS 18等新一代系统中引入自研AI聊天机器人计划