 Greenplum 精粹文集架构,后者最大瓶颈就是在 IO 吞吐上,在大规模数据处理时,IO 无法及时 feed 数据给到 CPU, CPU 资源处于 wait 空转状态,无法充分利用系统资源,导致 SQL 效 率低下: 一台内置 16 块 SAS 盘的 X86 服务器,每秒的 IO 数据扫描性能约在 2000MB/s 左右,可以想象,20 台这样的服务器构成的机群 IO 性能 是 40GB/s,这样超大的 IO 吞吐是传统的 Storage 中,通过并行计算获得数十倍性 能提高。 另外,GPTEXT(lucent 全文检索)、Apache Madlib(开源挖掘算法)、 SAS algorithm、R 都是通过 UDF 方式实现在 Greenplum 集群中分布 式部署,从而获得库内计算的并行能力。这里可以分享的是,SAS 曾 经做过测试,对 1 亿条记录做逻辑回归,采用一台小型机耗时约 4 个 多小时,通过部署到 Greenplum 集群中,耗时不到 10K RPM SAS 盘,采用 RAID5 或者 RAID10,需要预留单 独的 hotspare 盘),CPU 2 路 8 核及以上(主频 2.5GHZ 以上),1-2 块 RAID 卡(单块 RAID 卡的 cache 大小 1GB 以上,并带有掉电保护 功能,RAID 卡应为多通道,目前接触的硬件厂商中,单通道支持的最 大磁盘数为 16 块) ·硬盘尽量选 用 SAS 盘,从实践经验看,硬盘故障是0 码力 | 64 页 | 2.73 MB | 1 年前3 Greenplum 精粹文集架构,后者最大瓶颈就是在 IO 吞吐上,在大规模数据处理时,IO 无法及时 feed 数据给到 CPU, CPU 资源处于 wait 空转状态,无法充分利用系统资源,导致 SQL 效 率低下: 一台内置 16 块 SAS 盘的 X86 服务器,每秒的 IO 数据扫描性能约在 2000MB/s 左右,可以想象,20 台这样的服务器构成的机群 IO 性能 是 40GB/s,这样超大的 IO 吞吐是传统的 Storage 中,通过并行计算获得数十倍性 能提高。 另外,GPTEXT(lucent 全文检索)、Apache Madlib(开源挖掘算法)、 SAS algorithm、R 都是通过 UDF 方式实现在 Greenplum 集群中分布 式部署,从而获得库内计算的并行能力。这里可以分享的是,SAS 曾 经做过测试,对 1 亿条记录做逻辑回归,采用一台小型机耗时约 4 个 多小时,通过部署到 Greenplum 集群中,耗时不到 10K RPM SAS 盘,采用 RAID5 或者 RAID10,需要预留单 独的 hotspare 盘),CPU 2 路 8 核及以上(主频 2.5GHZ 以上),1-2 块 RAID 卡(单块 RAID 卡的 cache 大小 1GB 以上,并带有掉电保护 功能,RAID 卡应为多通道,目前接触的硬件厂商中,单通道支持的最 大磁盘数为 16 块) ·硬盘尽量选 用 SAS 盘,从实践经验看,硬盘故障是0 码力 | 64 页 | 2.73 MB | 1 年前3
 Red Hat OpenShift Data Foundation 4.12 规划部署gp3-csi。 7.1.2. 裸机 支持内部集群和使用外部集群。 内部集群必须满足存储设备要求,并且具有通过 Local Storage Operator 提供本地 SSD(NVMe/SATA/SAS、SAN)的存储类。 7.1.3. VMware vSphere 支持内部集群和使用外部集群。 推荐的版本: vSphere 6.7、更新 2 或更高版本 vSphere 7.0 或更高版本。 Hat OpenShift Data Foundation 集群。 内部集群必须满足存储设备要求,并且具有通过 Local Storage Operator 提供本地 SSD(NVMe/SATA/SAS、SAN)的存储类。 7.1.7. Red Hat OpenStack Platform [技术预览] 支持内部 Red Hat OpenShift Data Foundation 集群和使用外部集群。 SSD(NVMe/SATA/SAS、SAN)的存储类。 7.1.9. IBM Z 和 LinuxONE 支持内部 Red Hat OpenShift Data Foundation 集群。此外,也支持在 x86 上运行的 Ceph 的外部模式。 内部集群必须满足存储设备要求,并且具有通过 Local Storage Operator 提供本地 SSD(NVMe/SATA/SAS、SAN)的存储类。0 码力 | 37 页 | 620.41 KB | 1 年前3 Red Hat OpenShift Data Foundation 4.12 规划部署gp3-csi。 7.1.2. 裸机 支持内部集群和使用外部集群。 内部集群必须满足存储设备要求,并且具有通过 Local Storage Operator 提供本地 SSD(NVMe/SATA/SAS、SAN)的存储类。 7.1.3. VMware vSphere 支持内部集群和使用外部集群。 推荐的版本: vSphere 6.7、更新 2 或更高版本 vSphere 7.0 或更高版本。 Hat OpenShift Data Foundation 集群。 内部集群必须满足存储设备要求,并且具有通过 Local Storage Operator 提供本地 SSD(NVMe/SATA/SAS、SAN)的存储类。 7.1.7. Red Hat OpenStack Platform [技术预览] 支持内部 Red Hat OpenShift Data Foundation 集群和使用外部集群。 SSD(NVMe/SATA/SAS、SAN)的存储类。 7.1.9. IBM Z 和 LinuxONE 支持内部 Red Hat OpenShift Data Foundation 集群。此外,也支持在 x86 上运行的 Ceph 的外部模式。 内部集群必须满足存储设备要求,并且具有通过 Local Storage Operator 提供本地 SSD(NVMe/SATA/SAS、SAN)的存储类。0 码力 | 37 页 | 620.41 KB | 1 年前3
 TiDB中文技术文档位通用硬件服务器平台。对于开发,测试,及生产环境的服务 器硬件配置有以下要求和建议: 组件 CPU 内存 本地存储 网络 实例数量(最低要求) TiDB 8核+ 16 GB+ SAS, 200 GB+ 千兆网卡 1(可与 PD 同机器) PD 8核+ 16 GB+ SAS, 200 GB+ 千兆网卡 1(可与 TiDB 同机器) TiKV 8核+ 32 GB+ SSD, 200 GB+ 千兆网卡 3 服务器总计 4 注: 构建 组件 CPU 内存 硬盘类型 网络 实例数量(最低要求) TiDB 16核+ 48 GB+ SAS 万兆网卡(2块最佳) 2 PD 8核+ 16 GB+ SSD 万兆网卡(2块最佳) 3 TiKV 16核+ 48 GB+ SSD 万兆网卡(2块最佳) 3 监控 8核+ 16 GB+ SAS 千兆网卡 1 服务器总计 9 注: 生产环境中的 TiDB 和 PD 可以部署和运行在同服务器上,如 TiDB 8核+ 16 GB+ SAS, 200 GB+ 千兆网卡 1(可与 PD 同机器) PD 8核+ 16 GB+ SAS, 200 GB+ 千兆网卡 1(可与 TiDB 同机器) TiKV 8核+ 32 GB+ SSD, 200 GB+ 千兆网卡 3 服务器总计 4 组件 CPU 内存 硬盘类型 网络 实例数量(最低要求) TiDB 16核+ 48 GB+ SAS 万兆网卡(2块最佳) 2 PD0 码力 | 444 页 | 4.89 MB | 6 月前3 TiDB中文技术文档位通用硬件服务器平台。对于开发,测试,及生产环境的服务 器硬件配置有以下要求和建议: 组件 CPU 内存 本地存储 网络 实例数量(最低要求) TiDB 8核+ 16 GB+ SAS, 200 GB+ 千兆网卡 1(可与 PD 同机器) PD 8核+ 16 GB+ SAS, 200 GB+ 千兆网卡 1(可与 TiDB 同机器) TiKV 8核+ 32 GB+ SSD, 200 GB+ 千兆网卡 3 服务器总计 4 注: 构建 组件 CPU 内存 硬盘类型 网络 实例数量(最低要求) TiDB 16核+ 48 GB+ SAS 万兆网卡(2块最佳) 2 PD 8核+ 16 GB+ SSD 万兆网卡(2块最佳) 3 TiKV 16核+ 48 GB+ SSD 万兆网卡(2块最佳) 3 监控 8核+ 16 GB+ SAS 千兆网卡 1 服务器总计 9 注: 生产环境中的 TiDB 和 PD 可以部署和运行在同服务器上,如 TiDB 8核+ 16 GB+ SAS, 200 GB+ 千兆网卡 1(可与 PD 同机器) PD 8核+ 16 GB+ SAS, 200 GB+ 千兆网卡 1(可与 TiDB 同机器) TiKV 8核+ 32 GB+ SSD, 200 GB+ 千兆网卡 3 服务器总计 4 组件 CPU 内存 硬盘类型 网络 实例数量(最低要求) TiDB 16核+ 48 GB+ SAS 万兆网卡(2块最佳) 2 PD0 码力 | 444 页 | 4.89 MB | 6 月前3
 Go vs. GoPlus(Go+)JavaScript (1995) • Ruby (1995) 脚本语言是集中性大爆发的 大概也就是在 Java 出现的那个年代 数据科学语言发展史 (TOP50) • SQL (1973) • SAS (1976) • MATLAB (1984) • Python (1991) • R (2000) • Julia (2009) • Go+ (2020) 数据科学的发展古老而漫长 但开始进入加速期 更有生命力 • 数据科学是计算机的最初需求,历史悠久但进步缓慢 -因为数据大爆发的时代一直没有到来 02 数据科学的发展 数据科学的原始时期:数学软件时代 • SQL (1973) • SAS (1976) • MATLAB (1984) • Excel (1985) • Limited Domains (有限领域) ,比如 BI (Business Intelligence) • Limited0 码力 | 54 页 | 1.82 MB | 1 年前3 Go vs. GoPlus(Go+)JavaScript (1995) • Ruby (1995) 脚本语言是集中性大爆发的 大概也就是在 Java 出现的那个年代 数据科学语言发展史 (TOP50) • SQL (1973) • SAS (1976) • MATLAB (1984) • Python (1991) • R (2000) • Julia (2009) • Go+ (2020) 数据科学的发展古老而漫长 但开始进入加速期 更有生命力 • 数据科学是计算机的最初需求,历史悠久但进步缓慢 -因为数据大爆发的时代一直没有到来 02 数据科学的发展 数据科学的原始时期:数学软件时代 • SQL (1973) • SAS (1976) • MATLAB (1984) • Excel (1985) • Limited Domains (有限领域) ,比如 BI (Business Intelligence) • Limited0 码力 | 54 页 | 1.82 MB | 1 年前3
 鸟哥的 Linux 私房菜:基础学习篇 第四版32位与64位,CPU等级, 超线程 0.2.2 内存:多通道, DRAM与SRAM, ROM 0.2.3 显卡:PCIe 规格 0.2.4 硬盘与储存设备:物理组成,盘片与扇区,传输接口(SATA,SAS,USB..),SSD, 购买与运行 0.2.5 扩展卡与接口 0.2.6 主板 0.2.7 电源供应器 0.2.8 选购须知 0.3 数据表示方式 0.3.1 数字系统 0.3.2 也经过多次的改版,因此有许多不同的 接口喔!传统磁盘接口包括有 SATA, SAS, IDE 与 SCSI 等等。 若考虑外接式磁盘,那就还 包括了 USB, eSATA 等等接口喔!不过目前 IDE 已经被 SATA 取代,而 SCSI 则被 SAS 取 代,因此我们下面将仅介绍 SATA, USB 与 SAS 接口而已。 SATA接口 如同华硕主板图示右下方所示为SATA硬盘的连接接口插槽。这种插槽所使用的排线比较窄 个人电脑架构与相关设备元件 SAS接口 早期工作站或大型大脑上面,为了读写速度与稳定性,因此在这样的机器上面,大多使用的 是 SCSI 这种高阶的连接接口。 不过这种接口的速度后来被 SATA 打败了!但是 SCSI 有其 值得开发的功能,因此后来就有串行式 SCSI (Serial Attached SCSI, SAS) 的发展。这种 接口的速度比 SATA 来的快,而且连接的 SAS 硬盘的盘片转速与传输的速度也都比0 码力 | 1158 页 | 13.73 MB | 1 年前3 鸟哥的 Linux 私房菜:基础学习篇 第四版32位与64位,CPU等级, 超线程 0.2.2 内存:多通道, DRAM与SRAM, ROM 0.2.3 显卡:PCIe 规格 0.2.4 硬盘与储存设备:物理组成,盘片与扇区,传输接口(SATA,SAS,USB..),SSD, 购买与运行 0.2.5 扩展卡与接口 0.2.6 主板 0.2.7 电源供应器 0.2.8 选购须知 0.3 数据表示方式 0.3.1 数字系统 0.3.2 也经过多次的改版,因此有许多不同的 接口喔!传统磁盘接口包括有 SATA, SAS, IDE 与 SCSI 等等。 若考虑外接式磁盘,那就还 包括了 USB, eSATA 等等接口喔!不过目前 IDE 已经被 SATA 取代,而 SCSI 则被 SAS 取 代,因此我们下面将仅介绍 SATA, USB 与 SAS 接口而已。 SATA接口 如同华硕主板图示右下方所示为SATA硬盘的连接接口插槽。这种插槽所使用的排线比较窄 个人电脑架构与相关设备元件 SAS接口 早期工作站或大型大脑上面,为了读写速度与稳定性,因此在这样的机器上面,大多使用的 是 SCSI 这种高阶的连接接口。 不过这种接口的速度后来被 SATA 打败了!但是 SCSI 有其 值得开发的功能,因此后来就有串行式 SCSI (Serial Attached SCSI, SAS) 的发展。这种 接口的速度比 SATA 来的快,而且连接的 SAS 硬盘的盘片转速与传输的速度也都比0 码力 | 1158 页 | 13.73 MB | 1 年前3
 鸟哥的Linux私房菜:基础学习篇 第四版口也经过多次的改版,因此有许多不同的接口喔!传统磁盘接 口包括有 SATA, SAS, IDE 与 SCSI 等等。 若考虑外接式磁盘,那就还包括了 USB, eSATA 等等接口 喔!不过目前 IDE 已经被 SATA 取代,而 SCSI 则被 SAS 取代,因此我们下面将仅介绍 SATA, USB 与 SAS 接口而已。 SATA接口 如同华硕主板图示右下方所示为SATA硬盘的连接接口插槽。这种插槽所使用的排线比较窄小, 而已啦!所以厂商们才要发展固态硬盘啊! ^_^ SAS接口 早期工作站或大型大脑上面,为了读写速度与稳定性,因此在这样的机器上面,大多使用的是 SCSI 这种高阶 的连接接口。 不过这种接口的速度后来被 SATA 打败了!但是 SCSI 有其值得开发的功能,因此后来就有串 行式 SCSI (Serial Attached SCSI, SAS) 的发展。这种接口的速度比 SATA 来的快,而且连接的 SAS 硬盘的盘片转速与传输的速度也都比 硬盘的盘片转速与传输的速度也都比 SATA 硬盘好! 只是…好贵喔!而且一般个人电脑的主板上面通常 没有内置 SAS 连接接口,得要通过外接卡才能够支持。因此一般个人电脑主机还是以 SATA 接口为主要的磁 盘连接接口啰。 版本 带宽 (Gbit/s) 速度 (MByte/s) SAS 1 3 300 SAS 2 6 600 SAS 3 12 1200 因为这种接口的速度确实比较快喔!而且还支持例如热拔插等功能,0 码力 | 1057 页 | 14.60 MB | 1 年前3 鸟哥的Linux私房菜:基础学习篇 第四版口也经过多次的改版,因此有许多不同的接口喔!传统磁盘接 口包括有 SATA, SAS, IDE 与 SCSI 等等。 若考虑外接式磁盘,那就还包括了 USB, eSATA 等等接口 喔!不过目前 IDE 已经被 SATA 取代,而 SCSI 则被 SAS 取代,因此我们下面将仅介绍 SATA, USB 与 SAS 接口而已。 SATA接口 如同华硕主板图示右下方所示为SATA硬盘的连接接口插槽。这种插槽所使用的排线比较窄小, 而已啦!所以厂商们才要发展固态硬盘啊! ^_^ SAS接口 早期工作站或大型大脑上面,为了读写速度与稳定性,因此在这样的机器上面,大多使用的是 SCSI 这种高阶 的连接接口。 不过这种接口的速度后来被 SATA 打败了!但是 SCSI 有其值得开发的功能,因此后来就有串 行式 SCSI (Serial Attached SCSI, SAS) 的发展。这种接口的速度比 SATA 来的快,而且连接的 SAS 硬盘的盘片转速与传输的速度也都比 硬盘的盘片转速与传输的速度也都比 SATA 硬盘好! 只是…好贵喔!而且一般个人电脑的主板上面通常 没有内置 SAS 连接接口,得要通过外接卡才能够支持。因此一般个人电脑主机还是以 SATA 接口为主要的磁 盘连接接口啰。 版本 带宽 (Gbit/s) 速度 (MByte/s) SAS 1 3 300 SAS 2 6 600 SAS 3 12 1200 因为这种接口的速度确实比较快喔!而且还支持例如热拔插等功能,0 码力 | 1057 页 | 14.60 MB | 1 年前3
 Greenplum 介绍术领域取得了突出成就。 Greenplum 生态完善。得益于对 SQL 标准的出色支持,Greenplum 可以与上下游的各种产品实 现集成,包括 PgAdmin、Informatica、Cognos、SAS、Talend、Qlik、Tableau、Anaconda、 Microstrategy、Boundless、Zattset、Datometry 等,涵盖 ETL、商业智能、高级分析、可视化、 集成分析、GIS0 码力 | 3 页 | 220.42 KB | 1 年前3 Greenplum 介绍术领域取得了突出成就。 Greenplum 生态完善。得益于对 SQL 标准的出色支持,Greenplum 可以与上下游的各种产品实 现集成,包括 PgAdmin、Informatica、Cognos、SAS、Talend、Qlik、Tableau、Anaconda、 Microstrategy、Boundless、Zattset、Datometry 等,涵盖 ETL、商业智能、高级分析、可视化、 集成分析、GIS0 码力 | 3 页 | 220.42 KB | 1 年前3
 Qcon北京2018--《MySQL的Docker容器化大规模实践》--王晓波4核4G 4核8G 8核8G 8核16G 16核16G 16核64G 32核64G 32核128G 一主一从 分片集群 一主多从 SATA-SSD PCIE-SSD 大容量磁盘SAS 配置 DB架构 硬件选型 机房 A机房 B机房 C机房 D机房 容器化之后的MySQL就是一个私有DB云 主 从 集 群 创 建 分 片 集 群 创 建 集 成 高 可 用 方 案0 码力 | 32 页 | 7.11 MB | 1 年前3 Qcon北京2018--《MySQL的Docker容器化大规模实践》--王晓波4核4G 4核8G 8核8G 8核16G 16核16G 16核64G 32核64G 32核128G 一主一从 分片集群 一主多从 SATA-SSD PCIE-SSD 大容量磁盘SAS 配置 DB架构 硬件选型 机房 A机房 B机房 C机房 D机房 容器化之后的MySQL就是一个私有DB云 主 从 集 群 创 建 分 片 集 群 创 建 集 成 高 可 用 方 案0 码力 | 32 页 | 7.11 MB | 1 年前3
 Python在金融领域的应用与创新 王宇韬 反爬,Selenium 是个非常好用的 库。 知识产权 HUANENG GUICHENG TRUST CORPORATION LTD. 2019年1月20日 荣获中国版权局软件著作权 未来发展 SAS版舆情监控 多系统融合-Python生态链 人工智能再升级 ✓ 在网站上注册账号即可使用华小智面试宝; ✓ 新增微信端舆情监控,面向更广阔的世界。 ✓ 更加智能的交互,如自然语言处理; ✓0 码力 | 51 页 | 4.69 MB | 1 年前3 Python在金融领域的应用与创新 王宇韬 反爬,Selenium 是个非常好用的 库。 知识产权 HUANENG GUICHENG TRUST CORPORATION LTD. 2019年1月20日 荣获中国版权局软件著作权 未来发展 SAS版舆情监控 多系统融合-Python生态链 人工智能再升级 ✓ 在网站上注册账号即可使用华小智面试宝; ✓ 新增微信端舆情监控,面向更广阔的世界。 ✓ 更加智能的交互,如自然语言处理; ✓0 码力 | 51 页 | 4.69 MB | 1 年前3
 Greenplum机器学习⼯具集和案例改良后 X 对数据集的探索有限 ✓ 在Greenplum里充分探索了数据集 X 对Pivotal产品线不不熟悉 ✓ 在Greenplum上充分利用了MADlib 和PL/X X 在SAS和Excel上有很多⼿手动流程 ✓ 在Greenplum内部实现了了流程⾃自动 化 X 代码复杂冗余,很多数据类型 转换 ✓ 代码更更精简,更更便便于维护的代码 X 原始模型预测效果不不理理想0 码力 | 58 页 | 1.97 MB | 1 年前3 Greenplum机器学习⼯具集和案例改良后 X 对数据集的探索有限 ✓ 在Greenplum里充分探索了数据集 X 对Pivotal产品线不不熟悉 ✓ 在Greenplum上充分利用了MADlib 和PL/X X 在SAS和Excel上有很多⼿手动流程 ✓ 在Greenplum内部实现了了流程⾃自动 化 X 代码复杂冗余,很多数据类型 转换 ✓ 代码更更精简,更更便便于维护的代码 X 原始模型预测效果不不理理想0 码力 | 58 页 | 1.97 MB | 1 年前3
共 37 条
- 1
- 2
- 3
- 4













