智东西(公众号:zhidxcom)
编 | 王颖
导语:IBM提出分布式处理架构ASR,将语音识别训练时间从一周缩短至11.5小时。
智东西4月11日消息,IBM将在5月的ICASSP会议上公布新型AI语音模型处理架构ASR,大量缩短语音识别训练时间。
IBM在最新发表的论文《分布式深度学习自动语音识别策略》(Distributed Deep Learning Strategies for Automatic Speech Recognition)中提出了一种分布式处理架构(ASR),该架构可以在流行的开放源代码基准测试(Switchboard)上将训练提速15倍,而且不会损失准确性。
论文的作者表示,ASR部署在包含多个显卡的系统上,可以将培训时间总计从几周减少到几天。这项工作计划于下个月在IEEE国际声学,语音和信号处理会议(ICASSP)会议上公布。
一、分布式深度学习加速算法IBM团队的解决方案需要提高批量大小,即可以一次处理的样本数量,但不是不加选择地处理,否则将对准确性产生负面影响。他们将批量大小增加到2560个,同时应用一种称为异步分散并行随机梯度下降(ADPSGD)的分布式深度学习技术。
正如研究人员解释的那样,大多数深度学习模型要么采用同步优化方法,这种方法受到慢系统的不成比例的影响;要么采用基于参数服务器(PS)的异步方法,这种方法往往导致模型不够精确。 相比之下,IBM去年在论文中首次详述的ADPSGD是异步和分散的,保证了模型准确性的基线水平,并为某些类型的优化问题提供了加速。
在测试中,该论文的作者表示,ADPSGD缩短了ASR作业的运行时间,从单个V100图形处理器上的一周缩短到32图形处理器系统上的11.5小时。ADPSGD留给未来工作算法的时间,可以处理更大的批量和系统优化更强大的硬件。
IBM研究人员张伟、崔晓东和Brian Kingsbury在博文中写道:“在半天内完成一项培训工作是可取的,因为它使研究人员能够快速迭代开发新算法,也可以使开发人员快速调整现有模型以适应他们的应用,特别是在需要大量语音来实现稳健性和可用性所需的高精度时的情况下。”
二、复杂模型训练更需缩短时间机器学习训练中,需要克服的持续性的挑战,是可靠、强大且可概括的语音识别。传统上,训练自然语言理解模型需要包含数千小时语音和数百万(甚至数十亿)字的语料库,更不用说在合理的时间范围内处理它们的强大硬件了。
张伟、崔晓东和Brian Kingsbury介绍,训练像苹果的Siri、谷歌智能助理和亚马逊的Alexa那样的自动语音识别系统,需要复杂的编码系统将语音转换为深度学习系统和解码系统能够理解的功能,将输出转换成人类可读的文本。更复杂模型系统使大规模训练更加困难。
论文发布会议链接:
原文来自:VentureBeat