3 使用Python加速文件传输和文件复制 Giampaolo Rodolaefficiently ○ copy files efficiently ● Part 2: ○ psutil ● 第1部分 ○基础的 Unix 概念 ○基础的 Socket 操作 ○高效的传输文件 ○高效的复制文件 ● 第2部分 ○ psutil UNIX concepts (oversimplified) [简单聊聊 Unix 的相关概念] System call / 系统调用 ● A way 系统调用 I/O ● open() ● read() ● write() Processes / 进程 ● fork() ● kill() ● wait() Filesystem / 文件系统 ● chmod() ● mkdir() ● getcwd() Communication / 通信 ● pipe() ● splice() ● mmap() Kernel / 内核 sys 0m1,099s File descriptors 文件描述符 File descriptors / 文件描述符 ● it's a reference to "something" (usually a file) ● it can be mixed with system calls ● 是对文件/套接字等资源的引用 ● 可以和系统调用连用 Print >>> import0 码力 | 78 页 | 654.51 KB | 1 年前3
分布式 KV 存储系统 Cellar 演进之路分布式KV存储Cellar演进之路 美团点评·基础架构 齐泽斌 美团点评基础架构部,存储研发团队负责人 • Cellar:分布式KV存储服务 • Databus:数据库变更实时传输服务 • Venus:图片服务 11年毕业于天津大学 11 年到 14 年任职于百度,负责分布式文件系统和 KV 存储系统研发 有多年分布式存储研发经验 个人简介 • Cellar起源 • 中心节点架构演进 • 美团引入阿里Tair作为NoSQL存储 • 14年底 大范围应用,并对Tair修修补补,积累领域问题 • 16年初 基于开源版本研发新一代KV存储系统Cellar • Now Cellar日请求量达万亿级,美团点评最大NoSQL存储 Cellar起源 Cellar起源—Tair架构 路由表 Cellar起源—Tair架构 HASH Key 桶号 存储节点 固定HASH算 法 法 固定数目 数据分片 桶->存储节点 对照表 Cellar起源—Tair架构 服务层 请求 mdb 响应 ldb fdb rdb 引擎层 迁移 复制 • 中心化集群问题 • 可用性问题 • 性能问题 • 运维问题 Cellar起源—Tair问题 Cellar起源 架构升级 性能优化 可用性优 化 可运维性 Cellar 开源 Tair • Cellar起源0 码力 | 34 页 | 1.66 MB | 1 年前3
高可用分布式流数据存储设计-李玥⾼高可⽤用分布式流数据存储设计 李玥 京东集团 技术架构部 架构师 ⾃自我介绍 ⾃自我介绍 李李玥 京东集团 技术架构部 架构师 负责主导设计新⼀一代京东消息中间件系统,专注于流数据的⼀一致性分发和可靠存储、分布式实时计算和⾼高可⽤用分 布式系统架构等技术领域。 从事互联⽹网研发、架构10余年年,曾在浪潮集团、当当⽹网等公司从事架构相关⼯工作。2017年年加⼊入京东,期间提升京 如何定位?如何融入生态系统? How 如何实现?如何优化? WHY 为什什么需要流数据存储? 单体应⽤用 烟筒式 SOA 微服务 那些年年的服务 MySQL ES HDFS KV HBase Hive 这些年年的数据 Services Data MySQL ES HDFS KV HBase Hive 统⼀一的流数据存储平台 我们的愿景 Services Streaming Storage Storage Data 有序 Append only:尾部写入,不变 顺序读取 分布式 高性能 可靠性 顺序一致性 (近乎)无限容量 我们需要什什么样的存储? WHAT Pub/Sub Powered by United Stream Store Streaming Connector Distributed Application Coordinating Service0 码力 | 36 页 | 6.02 MB | 1 年前3
从百度文件系统看大型分布式系统设计中的定式与创新搜索基础架构 从百度文件系统 看大型分布式系统设计 自我介绍 • 颜世光, 专注于大规模分布式系统 • 代表作品 - 百度第三代Spider系统 - 百度文件系统BFS - 万亿量级实时数据库Tera - 集群调度系统Galaxy • 个人主页&Blog - https://github.com/bluebore - http://bluebore.cn 提纲 • 百度文件系统简介 • 分布式系统设计实践 单个集群通常几千台机器 • 百度文件系统(BFS)、集群调度系统(Galaxy)、分布式协 调服务(Nexus)是核心服务 • 实时任务与批量任务混合部署 Galaxy master BFS master Nexus lock service 分布式软件栈中的BFS The Baidu Stack 网络通信框架Sofa-pbrpc 分布式文件系统 BFS 集群调度系统 Galaxy 数据中心操作系统(DCOS) • 进程调度&内存管理 - Galaxy - 应用部署和任务调度 • 锁和信号量 - Nexus - 分布式锁 - 分布式通知 • 文件系统 - The Baidu File System - 持久化存储 百度文件系统架构 设计一个分布式系统要考虑的 • 数据与计算的分片 • 分区故障容忍 • 数据一致性 • 系统扩展性 • 延迟与吞吐 • 成本与资源利用率 • …0 码力 | 24 页 | 937.45 KB | 1 年前3
PaddleDTX 1.0.0 中文文档案例应用-线性回归算法测试 案例简介 测试脚本说明 上传样本文件 训练任务 预测任务 模型评估 案例应用-逻辑回归算法测试 案例简介 测试脚本说明 上传样本文件 训练任务 预测任务 模型评估 系统详解 部署架构 计算需求方(Requester) 任务执行节点(Executor Node) 数据持有节点(DataOwner Node) 存储节点(Storage Node) 区块链节点(Blockchain PaddleDTX,是一个基于去中心化存储的专注于分布式机器学习技术的解决方 案,攻克海量隐私数据的安全存储问题,并且实现多方数据的安全交换,助其 突破数据孤岛,共同建模,联合发挥数据的最大价值。 主要特征 PaddleDTX的主要特征如下: 支持多个学习过程并行运行的多方安全计算框架,集成多种横向联邦学习 和纵向联邦学习算法 安全存储高敏感数据,防止隐私泄漏,支持故障容错,抵御存储作弊 去中心化管理存储节点,支持无上限数据纳管 去中心化管理存储节点,支持无上限数据纳管 保证多方数据联合建模的全链路可信 架构概览 PaddleDTX由多方安全计算网络、去中心化存储网络、区块链网络构建而成。 1.1 多方安全计算网络 有预测需求的一方为计算需求节点。可获取样本数据进行模型训练和预测的一 方为任务执行节点,多个任务执行节点组成一个SMPC(多方安全计算)网 络。计算需求节点将任务发布到区块链网络,任务执行节点确认后执行任务。 数据持有节点对任务执行节点的计算数据做信任背书。0 码力 | 53 页 | 1.36 MB | 1 年前3
PaddleDTX 1.1.0 中文文档案例应用-线性回归算法测试 案例简介 测试脚本说明 上传样本文件 训练任务 预测任务 模型评估 案例应用-逻辑回归算法测试 案例简介 测试脚本说明 上传样本文件 训练任务 预测任务 模型评估 系统详解 部署架构 计算需求方(Requester) 任务执行节点(Executor Node) 数据持有节点(DataOwner Node) 存储节点(Storage Node) 区块链节点(Blockchain PaddleDTX,是一个基于去中心化存储的专注于分布式机器学习技术的解决方 案,攻克海量隐私数据的安全存储问题,并且实现多方数据的安全交换,助其 突破数据孤岛,共同建模,联合发挥数据的最大价值。 主要特征 PaddleDTX的主要特征如下: 支持多个学习过程并行运行的多方安全计算框架,集成多种横向联邦学习 和纵向联邦学习算法 安全存储高敏感数据,防止隐私泄漏,支持故障容错,抵御存储作弊 去中心化管理存储节点,支持无上限数据纳管 去中心化管理存储节点,支持无上限数据纳管 保证多方数据联合建模的全链路可信 架构概览 PaddleDTX由多方安全计算网络、去中心化存储网络、区块链网络构建而成。 1.1 多方安全计算网络 有预测需求的一方为计算需求节点。可获取样本数据进行模型训练和预测的一 方为任务执行节点,多个任务执行节点组成一个SMPC(多方安全计算)网 络。计算需求节点将任务发布到区块链网络,任务执行节点确认后执行任务。 数据持有节点对任务执行节点的计算数据做信任背书。0 码力 | 57 页 | 1.38 MB | 1 年前3
PaddleDTX 1.0.0 中文文档PaddleDTX,是一个基于去中心化存储的专注于分布式机器学习技术的解决方案,攻克海量隐私数据的安全 存储问题,并且实现多方数据的安全交换,助其突破数据孤岛,共同建模,联合发挥数据的最大价值。 1.1 主要特征 PaddleDTX 的主要特征如下: • 支持多个学习过程并行运行的多方安全计算框架,集成多种横向联邦学习和纵向联邦学习算法 • 安全存储高敏感数据,防止隐私泄漏,支持故障容错,抵御存储作弊 • 去中心化管理存储节点,支持无上限数据纳管 去中心化管理存储节点,支持无上限数据纳管 • 保证多方数据联合建模的全链路可信 1.2 架构概览 PaddleDTX 由多方安全计算网络、去中心化存储网络、区块链网络构建而成。 1 PaddleDTX Documentation 1.2.1 1.1 多方安全计算网络 有预测需求的一方为计算需求节点。可获取样本数据进行模型训练和预测的一方为任务执行节点,多个任务 执行节点组成一个 SM 习算法。 1.2.2 1.2 去中心化存储网络 数据持有节点将自己的隐私数据进行加密、切分、副本复制后分发到存储节点,存储节点通过应答数据持有 节点的挑战证明自己持有数据分片。通过这些机制,实现了在不泄漏隐私的前提下充分且安全地利用存储资 源。 训练样本和预测数据集往往是归属于不同机构的隐私数据。这些机构可以作为数据持有节点加入到去中心化 存储网络中,通过多方安全计算网络发挥数据的最大价值。0 码力 | 57 页 | 624.94 KB | 1 年前3
PaddleDTX 1.1.0 中文文档PaddleDTX,是一个基于去中心化存储的专注于分布式机器学习技术的解决方案,攻克海量隐私数据的安全 存储问题,并且实现多方数据的安全交换,助其突破数据孤岛,共同建模,联合发挥数据的最大价值。 1.1 主要特征 PaddleDTX 的主要特征如下: • 支持多个学习过程并行运行的多方安全计算框架,集成多种横向联邦学习和纵向联邦学习算法 • 安全存储高敏感数据,防止隐私泄漏,支持故障容错,抵御存储作弊 • 去中心化管理存储节点,支持无上限数据纳管 去中心化管理存储节点,支持无上限数据纳管 • 保证多方数据联合建模的全链路可信 1.2 架构概览 PaddleDTX 由多方安全计算网络、去中心化存储网络、区块链网络构建而成。 1 PaddleDTX Documentation 1.2.1 1.1 多方安全计算网络 有预测需求的一方为计算需求节点。可获取样本数据进行模型训练和预测的一方为任务执行节点,多个任务 执行节点组成一个 SM 习算法。 1.2.2 1.2 去中心化存储网络 数据持有节点将自己的隐私数据进行加密、切分、副本复制后分发到存储节点,存储节点通过应答数据持有 节点的挑战证明自己持有数据分片。通过这些机制,实现了在不泄漏隐私的前提下充分且安全地利用存储资 源。 训练样本和预测数据集往往是归属于不同机构的隐私数据。这些机构可以作为数据持有节点加入到去中心化 存储网络中,通过多方安全计算网络发挥数据的最大价值。0 码力 | 65 页 | 687.09 KB | 1 年前3
FISCO BCOS 2.9.0 中文文档开发第一个区块链应用 • 关键概念 • 区块链网络搭建 • 区块链应用开发 • FISCO BCOS Java SDK • 问题排查 • 整体架构 • 共识算法 • 交易并行 • 分布式存储 • 预编译合约 • 更多设计文档 • Github主页 • 深度解析系列文章 • 贡献代码 • 反馈问题 • 应用案例集 • 微信群 、公众号 • FISCO BCOS企业级金融联盟链底层平台: 富业务场景、扩大业务 规模,且大幅简化链的部署和运维成本。 两翼指的是支持并行计算模型和分布式存储,二者为群组架构带来更好的扩展性。前者改变了区块中按 交易顺序串行执行的做法,基于DAG(有向无环图)并行执行交易,大幅提升性能;后者支持企业(节 点)将数据存储在远端分布式系统中,克服了本地化数据存储的诸多限制。 多引擎是一系列功能特性的总括,比如预编译合约能够突破EVM的性能瓶颈,实现高性能合约;控制台 交易确认时延低、吞吐量 高,并具有最终一致性。其中PBFT和rPBFT可解决拜占庭问题,安全性更高。 • 存储:世界状态的存储从原来的MPT存储结构转为分布式存储,避免了世界状态急剧膨胀导致性 能下降的问题;引入可插拔的存储引擎,支持LevelDB、RocksDB、MySQL等多种后端存储,支持 数据简便快速扩容的同时,将计算与数据隔离,降低了节点故障对节点数据的影响。 • 网络:支持网络压缩0 码力 | 1489 页 | 107.09 MB | 1 年前3
FISCO BCOS 3.6.0 中文文档开发第一个区块链应用 • 关键概念 • 区块链网络搭建 • 区块链应用开发 • FISCO BCOS Java SDK • 问题排查 • 整体架构 • 共识算法 • 交易并行 • 分布式存储 • 预编译合约 • 更多设计文档 • Github主页 • 深度解析系列文章 • 贡献代码 • 反馈问题 • 应用案例集 • 微信群 、公众号 • FISCO BCOS企业级金融联盟链底层平台: 富业务场景、扩大业务 规模,且大幅简化链的部署和运维成本。 两翼指的是支持并行计算模型和分布式存储,二者为群组架构带来更好的扩展性。前者改变了区块中按 交易顺序串行执行的做法,基于DAG(有向无环图)并行执行交易,大幅提升性能;后者支持企业(节 点)将数据存储在远端分布式系统中,克服了本地化数据存储的诸多限制。 多引擎是一系列功能特性的总括,比如预编译合约能够突破EVM的性能瓶颈,实现高性能合约;控制台 交易确认时延低、吞吐量 高,并具有最终一致性。其中PBFT和rPBFT可解决拜占庭问题,安全性更高。 • 存储:世界状态的存储从原来的MPT存储结构转为分布式存储,避免了世界状态急剧膨胀导致性 能下降的问题;引入可插拔的存储引擎,支持LevelDB、RocksDB、MySQL等多种后端存储,支持 数据简便快速扩容的同时,将计算与数据隔离,降低了节点故障对节点数据的影响。 • 网络:支持网络压缩0 码力 | 1489 页 | 107.09 MB | 1 年前3
共 531 条
- 1
- 2
- 3
- 4
- 5
- 6
- 54













