PyConChina2022-深圳-大规模生产环境下的Faster CPython-王文洋大规模生产环境下的 Faster-CPython 主讲人: 王文洋 老板思维 已知:公司有xx个计算集群 每个集群有xxxxx个core Python进程占比xx% 如果:提升 10% 那么:可以节省 xx * xxxxx * xx% * 10%个core 降本 xx * xxxxx * xx% * 10% * n >> 我的工资 结论:。。。 Why0 码力 | 31 页 | 2.47 MB | 1 年前3
1_丁来强_开源AIOps数据中台搭建与Python的作用修剪⽹网络并提供有效问题的关系链接。 规范性建议 对问题进⾏行行分类,并基于过去⽅方案提供有效建议。 拓拓扑 提供拓拓扑能⼒力力强化上下⽂文与前述的准确度 算法落地的直接挑战 • 数据不不全,质量量⽋欠佳 • 团队缺少懂的⼈人 • ⼯工具不不好⽤用 • ⼯工程化不不易易 算法落地的趋势 • ⾼高薪机会让更更多⼈人⼈人员会进去这个领域 • 框架使得学习⻔门槛降低:不不需要博⼠士就能做 • 公司培训与⼈人员参与促进发展 全⽂文索引查询强,过滤快、聚集功能强⼤大 • 不不⽀支持外部关联,有SQL适配器器 • 缺点: • 企业特性需要商业License • 内存管理理挑战较⼤大,复杂统计易易失控 • 超过百TB规模后运维成本⾼高 • 存储压缩效率偏低 Kibana核⼼能⼒ • 交互式查询控制台、tail-f • 完整报表中⼼与交互功能 • ⾼级图表功能:地图、关系图 • 时序数据 • 机器学习(收费) 其他OLAP选择: Druid • 性能优越: • PB级别规模 • 亚秒级OLAP系统 • 实时写⼊入与查询 • 组件⻆角⾊色较多,搭建较为复杂 • Json-QL(有SQL适配器器) • 不不⽀支持外Join、窗⼝口等 其他OLAP选择: Clickhouse • 性能优越: • 10亿+条规模⽐比商业软件快5倍 • ⽐比MySQL快⼏几百倍 • 稳定可靠,⾮非Hadoop体系,0 码力 | 48 页 | 17.54 MB | 1 年前3
9 盛泳潘 When Knowledge Graph meet Python MIT Press. 本页PPT借鉴于复旦大学肖仰华老师《大数据时代的知识工程与知识管理》 Preliminaries Major difficulties: 自上而下:严重依赖专家和用户的干预(规模有限、质量存疑) Conventional KE – Features and Challenges 1、知识获取困难 e.g., 领域知识难以表达(形式化),因为它往往是一种隐性知识、过程知识。 鸵鸟不会飞 本页PPT借鉴于复旦大学肖仰华老师《大数据时代的知识工程与知识管理》 大数据时代催生KE飞速前进发 展 Preliminaries Preliminaries 大数据时代的机遇 – 大规模知识自动获取 本页PPT借鉴于复旦大学肖仰华老师《大数据时代的知识工程与知识管理》 Big Data + Machine Learning[R1] + Powerful Computation[R2] Ref:Danqi Chen, etc. Reading Wikipedia to Answer Open-Domain Questions 大数据时代的到来,使得知识库技术突破了长久以来制约 其发展的规模与质量瓶颈。知识图谱是这一突破的代表性 产物。知识工程(KE)在知识图谱(KG)技术的引领下 进入了全新的阶段(大数据时代的知识工程BigKE), BigKE将显著提升机器的认知水平。 Preliminaries0 码力 | 57 页 | 1.98 MB | 1 年前3
PyConChina2022-杭州-ARM芯片的Python+AI算力优化-朱宏林ARM 芯片的 Python + AI 算力优化 主讲人: 朱宏林 – 阿里云程序语言与编译器团队 简介 • 当今开发者们大量使用 Python 语言编写的 AI 程序。过去这些程序总跑在 GPU 或者 x86 架构的 CPU 上。然而综合考虑到功耗、成本、性能等因素,云厂商们开始建设 ARM 架构的服务平台,如 何整合 Python + AI 的相关软件并使其在该平台上发挥最高的性能成为了工程师们关注的焦点。 Scalable Matrix Extension • CPU 存在优势场景,但当前尚没有可大规模使用 AMX 和 SME 实例 V0 V1 ✕ ✕ ✕ ✕ V2 BF16 数据类型 • BF16(Brain Floating Point,bfloat16) • Google Brain 团队 • float32、float16、bfloat16(FP32、FP16、BF16) •0 码力 | 24 页 | 4.00 MB | 1 年前3
Hello 算法 1.1.0 Python版数据量的变化,算法会表现出不同的效率。例如,在输入 数据量较小时,算法 A 的运行时间比算法 B 短;而在输入数据量较大时,测试结果可能恰恰相反。因此,为 了得到有说服力的结论,我们需要测试各种规模的输入数据,而这需要耗费大量的计算资源。 2.1.2 理论估算 由于实际测试具有较大的局限性,因此我们可以考虑仅通过一些计算来评估算法的效率。这种估算方法被称 为渐近复杂度分析(asymptotic == 1: return 1 return exp_recur(n - 1) + exp_recur(n - 1) + 1 指数阶增长非常迅速,在穷举法(暴力搜索、回溯等)中比较常见。对于数据规模较大的问题,指数阶是不 可接受的,通常需要使用动态规划或贪心算法等来解决。 5. 对数阶 ?(log ?) 与指数阶相反,对数阶反映了“每轮缩减到一半”的情况。设输入数据大小为 ? ,由于每轮缩减到一半,因 指标。 ‧ 我们可以通过实际测试来评估算法效率,但难以消除测试环境的影响,且会耗费大量计算资源。 ‧ 复杂度分析可以消除实际测试的弊端,分析结果适用于所有运行平台,并且能够揭示算法在不同数据 规模下的效率。 时间复杂度 ‧ 时间复杂度用于衡量算法运行时间随数据量增长的趋势,可以有效评估算法效率,但在某些情况下可 能失效,如在输入的数据量较小或时间复杂度相同时,无法精确对比算法效率的优劣。0 码力 | 364 页 | 18.42 MB | 1 年前3
Hello 算法 1.0.0 Python版数据量的变化,算法会表现出不同的效率。例如,在输入 数据量较小时,算法 A 的运行时间比算法 B 短;而在输入数据量较大时,测试结果可能恰恰相反。因此,为 了得到有说服力的结论,我们需要测试各种规模的输入数据,而这需要耗费大量的计算资源。 2.1.2 理论估算 由于实际测试具有较大的局限性,因此我们可以考虑仅通过一些计算来评估算法的效率。这种估算方法被称 为「渐近复杂度分析 asymptotic == 1: return 1 return exp_recur(n - 1) + exp_recur(n - 1) + 1 指数阶增长非常迅速,在穷举法(暴力搜索、回溯等)中比较常见。对于数据规模较大的问题,指数阶是不 可接受的,通常需要使用动态规划或贪心算法等来解决。 5. 对数阶 ?(log ?) 与指数阶相反,对数阶反映了“每轮缩减到一半”的情况。设输入数据大小为 ? ,由于每轮缩减到一半,因 指标。 ‧ 我们可以通过实际测试来评估算法效率,但难以消除测试环境的影响,且会耗费大量计算资源。 ‧ 复杂度分析可以消除实际测试的弊端,分析结果适用于所有运行平台,并且能够揭示算法在不同数据 规模下的效率。 时间复杂度 ‧ 时间复杂度用于衡量算法运行时间随数据量增长的趋势,可以有效评估算法效率,但在某些情况下可 能失效,如在输入的数据量较小或时间复杂度相同时,无法精确对比算法效率的优劣。0 码力 | 362 页 | 17.54 MB | 1 年前3
Hello 算法 1.2.0 简体中文 Python 版数据量的变化,算法会表现出不同的效率。例如,在输入 数据量较小时,算法 A 的运行时间比算法 B 短;而在输入数据量较大时,测试结果可能恰恰相反。因此,为 了得到有说服力的结论,我们需要测试各种规模的输入数据,而这需要耗费大量的计算资源。 2.1.2 理论估算 由于实际测试具有较大的局限性,因此我们可以考虑仅通过一些计算来评估算法的效率。这种估算方法被称 为渐近复杂度分析(asymptotic == 1: return 1 return exp_recur(n - 1) + exp_recur(n - 1) + 1 指数阶增长非常迅速,在穷举法(暴力搜索、回溯等)中比较常见。对于数据规模较大的问题,指数阶是不 可接受的,通常需要使用动态规划或贪心算法等来解决。 5. 对数阶 ?(log ?) 与指数阶相反,对数阶反映了“每轮缩减到一半”的情况。设输入数据大小为 ? ,由于每轮缩减到一半,因 time_complexity.py === def linear_log_recur(n: int) -> int: """ 线性对数阶""" if n <= 1: return 1 # 一分为二,子问题的规模减小一半 count = linear_log_recur(n // 2) + linear_log_recur(n // 2) # 当前子问题包含 n 个操作 for _ in range(n):0 码力 | 364 页 | 18.43 MB | 10 月前3
Hello 算法 1.0.0b4 Python版展开完整测试非常耗费资源。随着输入数据量的变化,算法会表现出不同的效率。例如,输入数据量较小时, 算法 A 的运行时间可能短于算法 B;而输入数据量较大时,测试结果可能相反。因此,为了得到有说服力的 结论,我们需要测试各种规模的输入数据,这样需要占用大量的计算资源。 理论估算 由于实际测试具有较大的局限性,我们可以考虑仅通过一些计算来评估算法的效率。这种估算方法被称为 「复杂度分析 Complexity Analysis」或「渐近复杂度分析 我们可以通过实际测试来评估算法效率,但难以消除测试环境的影响,且会耗费大量计算资源。 2. 复杂度 hello‑algo.com 34 ‧ 复杂度分析可以克服实际测试的弊端,分析结果适用于所有运行平台,并且能够揭示算法在不同数据 规模下的效率。 时间复杂度 ‧ 时间复杂度用于衡量算法运行时间随数据量增长的趋势,可以有效评估算法效率,但在某些情况下可 能失效,如在输入数据量较小或时间复杂度相同时,无法精确对比算法效率的优劣。 解)。 Figure 12‑1. 归并排序的分治策略 12.1.1. 如何判断分治问题 一个问题是否适合使用分治解决,通常可以参考以下几个判断依据: 1. 问题可以被分解:原问题可以被分解成规模更小、类似的子问题,以及能够以相同方式递归地进行划分。 2. 子问题是独立的:子问题之间是没有重叠的,互相没有依赖,可以被独立解决。 3. 子问题的解可以被合并:原问题的解通过合并子问题的解得来。0 码力 | 329 页 | 27.34 MB | 1 年前3
Hello 算法 1.0.0b5 Python版数据量的变化,算法会表现出不同的效率。例如,在输入 数据量较小时,算法 A 的运行时间比算法 B 更少;而输入数据量较大时,测试结果可能恰恰相反。因此,为 了得到有说服力的结论,我们需要测试各种规模的输入数据,而这需要耗费大量的计算资源。 2.1.2 理论估算 由于实际测试具有较大的局限性,我们可以考虑仅通过一些计算来评估算法的效率。这种估算方法被称为 「渐近复杂度分析 asymptotic == 1: return 1 return exp_recur(n - 1) + exp_recur(n - 1) + 1 指数阶增长非常迅速,在穷举法(暴力搜索、回溯等)中比较常见。对于数据规模较大的问题,指数阶是不 可接受的,通常需要使用动态规划或贪心等算法来解决。 5. 对数阶 ?(log ?) 与指数阶相反,对数阶反映了“每轮缩减到一半”的情况。设输入数据大小为 ? ,由于每轮缩减到一半,因 价指标。 ‧ 我们可以通过实际测试来评估算法效率,但难以消除测试环境的影响,且会耗费大量计算资源。 ‧ 复杂度分析可以克服实际测试的弊端,分析结果适用于所有运行平台,并且能够揭示算法在不同数据 规模下的效率。 时间复杂度 ‧ 时间复杂度用于衡量算法运行时间随数据量增长的趋势,可以有效评估算法效率,但在某些情况下可 能失效,如在输入的数据量较小或时间复杂度相同时,无法精确对比算法效率的优劣。0 码力 | 361 页 | 30.64 MB | 1 年前3
07 FPGA 助力Python加速计算 陈志勇安富利 Xilinx 产品线中国区团队: Ø 团队人数:约70人,包括销售、技术支持和市场人员, 分布在中国17个城市,是国内最大的FPGA支持团队。 Ø 技术专家团队:为了配合Xilinx 主要的技术领域推广, 我们有技术专家分别负责不同的技术方向,包括:无 线和信号处理、高速IO和嵌入式设计等。 Ø 设计服务团队:我们有独立的Xilinx的设计服务团队, 可以为亚太区的客户提供基于 Xilinx0 码力 | 34 页 | 6.89 MB | 1 年前3
共 45 条
- 1
- 2
- 3
- 4
- 5













