Skip to main content
 Web开发网 » 站长学院 » 浏览器插件

如何评价字节跳动开源的高性能分布式训练框架BytePS?

2021年11月04日6950百度已收录

在分布式训练中有两大流派,分别是allreduce和PS(Parameter Server)。过去三年中,尤其是百度提出allreduce,以及Uber开源基于allreduce的Horovod之后,行业内的认知中,allreduce是最好的分布式训练通信方式,而过去的PS实现的性能也确实与allreduce存在一定差距。

BytePS可以兼容Tensorflow、PyTorch、MXNet等训练框架。BytePS团队表示,开发者只需要非常少的改动,就可以使用BytePS框架进行分布式训练,享受BytePS带来的高性能。此前行业里的PS实现,都是针对特定通用框架,例如专门为TensorFlow实现的PS,也有专门为MXNet实现的PS。字节跳动人工智能实验室开源的BytePS,通过实现一个通用的抽象层,抽象层可以被各种通用框架引用,实现了同时支持多个框架的可能性,因此能够支持Tensorflow、PyTorch、MXNet等行业主流训练框架。

在测试上,BytePS 在 Resnet50 的表现较 Horovod(NCCL)提高 44%,在 VGG16 则提升了 100%。

评论列表暂无评论
发表评论
微信