TensorFlow on Yarn:深度学习遇上大数据SparkFlow介绍 SparkFlow:360系统部⼤数据团队设计的TensorFlow on Spark解决⽅案� • Coordinator负责协调生成ClusterSpec(扩展的TensorFlow gRPC server) • Worker通过读取RDD获取训练样本 • RDD的数据cache到内存或者磁盘供多次迭代训练使用 SparkFlow介绍 SparkFlow与TensorFlow0 码力 | 32 页 | 4.06 MB | 1 年前3
阿里云上深度学习建模实践-程孟力Adaptive Embedding 训练: 推理: Ring All-reduc同步训练 [HybridBackend/SOK] 特征选择 [VariationalDropout] 通信优化 [GRPC++] 实时训练 [增量更新] 混合精度 [bf16] 工程优化: 千亿特征优化 模型蒸馏 AVX/SSE优化 Graph优化 [User Graph去重] 内存Allocate优化 ParallelStringOp0 码力 | 40 页 | 8.51 MB | 1 年前3
微博在线机器学习和深度学习实践-黄波Tensorflow 4 深度学习-深度学习模型训练 • 通信优化 • PS:BSP/SSP/ASP多种通信模式支持 • MPI&RingAllreduce:Horovod,使用 MPI替换grpc,同步通信模式;带宽优化,增加延时; • PS&MPI:DistributionStrategy API,统一分布式语义,解耦分布式架构与模型训练框架 • 使用FP16通信,使用FP32做计算,带宽压力降低一倍0 码力 | 36 页 | 16.69 MB | 1 年前3
共 3 条
- 1













