《Efficient Deep Learning Book》[EDL] Chapter 6 - Advanced Learning Techniques - Technical ReviewLearners." arXiv, 17 June 2020, doi:10.48550/arXiv.2006.10029. 12 Chen, Ting, et al. "A Simple Framework for Contrastive Learning of Visual Representations." arXiv, 13 Feb. 2020, doi:10.48550/arXiv.2002 International Conference on Machine Learning." Does label smoothing mitigate label noise? JMLR.org, 13 July 2020, pp. 6448-58, doi:10.5555/3524938.3525536. 16 Szegedy, Christian, et al. "Rethinking the Inception Pierre, et al. "Sharpness-Aware Minimization for Efficiently Improving Generalization." arXiv, 3 Oct. 2020, doi:10.48550/arXiv.2010.01412. Let’s break this down. Essentially, all this function is doing is0 码力 | 31 页 | 4.03 MB | 1 年前3
《Efficient Deep Learning Book》[EDL] Chapter 4 - Efficient ArchitecturesLaplace (EJSM/Laplace) was a proposed joint NASA/ESA unmanned space mission slated to launch around 2020 for the in-depth exploration of Jupiter's moons with a focus on Europa Ganymede and Jupiter's magnetosphere arXiv preprint arXiv:2101.08890. 15 Chung, H. W., Fevry, T., Tsai, H., Johnson, M., & Ruder, S. (2020). Rethinking embedding coupling in pre-trained language models. arXiv preprint arXiv:2010.12821. category with high probability. 18 Chen, T., Kornblith, S., Swersky, K., Norouzi, M., & Hinton, G. E. (2020). Big self-supervised models are strong semi-supervised learners. Advances in neural information processing0 码力 | 53 页 | 3.92 MB | 1 年前3
从推荐模型的基础特点看大规模推荐类深度学习系统的设计 袁镱PCG的图⽂,视频推荐(腾讯视频,腾讯新 闻,QQ看点,浏览器,微视, QQ⼩世界等) � 腾讯系内容推荐:阅⽂集团,QQ⾳乐 � Facebook推荐场景推理成本占AI推理成本的 >72% [ISCA2020 RecNMP] � 千亿级推荐模型应⽤ O1. 千亿级特征(TB级)的模型的在线/离 线训练,在线推理服务和持续上线 O2. 针对推荐特点的深度优化,达到业界先 进⽔平 推荐系统的核⼼特点 常规的数值⽆损的压缩⽅法效果不明显 � 业界主流做法: � 量化 � 稀疏化。累计发 送,需要做本地 梯度修正 float32->float16->int8->int4->2bit 直接压缩->训练算法补偿 [2020] Compressed Communication for Distributed Deep Learning: Survey and Quantitative Evaluation [ICLR2018]Deep 场景2 64% 下⼀步的 解空间 未来⽅向—现有推荐架构的问题,算法⼯程协同的解法 � 更基础的复杂模型,场景的快速适应 � 多场景建模 � 端云⼀体的协同 推荐技术 [KDD2020] DCAF: A Dynamic Computation Allocation Framework for Online Serving System � 推荐全链路⾃适应 � 统⼀建模,根据请求量削峰填⾕,资源利⽤最⼤化0 码力 | 22 页 | 6.76 MB | 1 年前3
PyTorch Release Noteslatest version of DLProf 0.18.0 ‣ The latest version of PyProf r20.12 ‣ Ubuntu 20.04 with November 2020 updates Announcements ‣ Deep learning framework containers 19.11 and later include experimental latest version of DLProf 0.17.0 ‣ The latest version of PyProf r20.11 ‣ Ubuntu 18.04 with October 2020 updates PyTorch Release 20.11 PyTorch RN-08516-001_v23.07 | 225 Announcements ‣ Deep learning latest version of DLProf 0.16.0 ‣ The latest version of PyProf 3.5.0 ‣ Ubuntu 18.04 with September 2020 updates Announcements ‣ Deep learning framework containers 19.11 and later include experimental0 码力 | 365 页 | 2.94 MB | 1 年前3
《Efficient Deep Learning Book》[EDL] Chapter 5 - Advanced Compression Techniquessparsity for fast inference on deep neural networks." International Conference on Machine Learning. PMLR, 2020. 12 Rhu, Minsoo, et al. "Compressing DMA engine: Leveraging activation sparsity for training deep convolutional layers and so on. 20 "Matrix Compression Operator." 17 July 2022, blog.tensorflow.org/2020/02/matrix-compression-operator-tensorflow.html. 19 X. Yu, T. Liu, X. Wang and D. Tao, "On Compressing0 码力 | 34 页 | 3.18 MB | 1 年前3
机器学习课程-温州大学-03深度学习-PyTorch入门Machine Learning, Springer-Verlag, 2006 4. 李宏毅,《一天搞懂深度学习》 5. 吴茂贵等,《Python深度学习基于PyTorch》,机械工业出版社,2020 40 谢 谢!0 码力 | 40 页 | 1.64 MB | 1 年前3
机器学习课程-温州大学-10机器学习-聚类Transactions on Knowledge Discovery from Data, 2015. [11] 彭 涛 . 人 工 智 能 概 论 [EB/OL]. 北 京 联 合 大 学 ,2020. https://www.icourse163.org/course/BUU- 1461546165 48 谢 谢!0 码力 | 48 页 | 2.59 MB | 1 年前3
《Efficient Deep Learning Book》[EDL] Chapter 1 - Introduction5 Brown, Tom B., et al. "Language models are few-shot learners." arXiv preprint arXiv:2005.14165 (2020). 4 Devlin, Jacob, et al. "Bert: Pre-training of deep bidirectional transformers for language understanding0 码力 | 21 页 | 3.17 MB | 1 年前3
动手学深度学习 v2.0MF (Intel 80486) 2000 10 M (网页) 100 MB 1 GF (Intel Core) 2010 10 G (广告) 1 GB 1 TF (Nvidia C2050) 2020 1 T (社交网络) 100 GB 1 PF (Nvidia DGX‐2) 很明显,随机存取存储器没有跟上数据增长的步伐。与此同时,算力的增长速度已经超过了现有数据的增长 速度。这意味着统计 的行为使得他们的决策看起来不那么随机。近年来,控制理论(如PID的变体)也被用于自动调整超参数,以 获得更好的解构和重建质量,提高生成文本的多样性和生成图像的重建质量 (Shao et al., 2020)。 强化学习 强化学习(reinforcement learning)强调如何基于环境而行动,以取得最大化的预期利益。国际象棋、围棋、 西洋双陆棋或星际争霸都是强化学习的应用实例。再比如, 如何设计? 4. 如果输入序列很长,Transformer会面临什么挑战?为什么? 5. 如何提高Transformer的计算速度和内存使用效率?提示:可以参考论文 (Tay et al., 2020)。 6. 如果不使用卷积神经网络,如何设计基于Transformer模型的图像分类任务?提示:可以参考Vision Transformer (Dosovitskiy et al., 2021)。0 码力 | 797 页 | 29.45 MB | 1 年前3
机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入基础模型基于广泛数据(通常使用大规模自我监督)训练的任何模型,可以适 应(例如微调)广泛的下游任务,目前例子包括BERT( Devlin et al.)、GPT-3(Brown et al. 2020)和CLIP(Radford et al. 2021)。 ✓ 机器学习使学习算法同质化(例如,逻辑回归),深度学习使模型架构同质化(如卷积神经网络),而基础模型使模型本身同质化(比如, GPT-3)。0 码力 | 44 页 | 2.36 MB | 1 年前3
共 12 条
- 1
- 2













