Spark - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Go 构建大型开源分布式数据库技术内幕

介绍两个有趣的项目 Spark on TiDB TiSpark TiDB + SparkSQL = TiSpark TiKV TiKV TiKV TiKV TiKV TiDB TiDB TiDB TiDB + SparkSQL = TiSpark Spark Master TiKV Connector Data Storage & Coprocessor PD Spark Exec TiKV Connector Spark Exec TiKV Connector Spark Exec Features Beyond Raw Spark ● Index support ● Complex Calculation Pushdown ● CBO ○ Pick up right Access Path ○ Join Reorder Use Case ● Analytical with Spark ○ Possiblility for get rid of Hadoop ● Embrace Spark echo-system ○ Support of complex transformation and analytics with Scala / Python and R ○ Machine Learning Libraries ○ Spark Streaming

0 码力 | 44 页 | 649.68 KB | 1 年前
3
05 PHP基本语法 - 变量、数组、字符串杨亮《PHP语⾔程序设计》

'Tires', 'Oil', 'Spark Plugs', 100 ); 5 echo $products[0]; 6 $products[2] = 'test'; 7 echo $products[2]; 8 9 //manually index 10 $prices = array('Tires'=>100, 'Oil'=>10, 'Spark Plugs'=>4); 11 = $prices + $prices_new; 23 echo $prices['Oil']; 24 ?> 0 1 2 3 ‘Tires’ ‘Oil' ‘Spark Plugs' 100 Tires’ Oil' Spark Plugs' 100 10 4 ��来 1 Spark Plugs', 4 ) ); 5 6 $products = array( array( 'Code' => 'TIR', 7

0 码力 | 25 页 | 587.00 KB | 1 年前
3
美团点评2018技术年货

历史数据的来源主要是我们的Hive和HDFS，可以方便的做到大数据量的存储和并行计算。离线计算简介离线计算简介在离线处理这块，主要包含了MR模块和Spark模块，我们的一些ETL操作，就是基于MR模块的，一些用户行为数据的深度分析，会基于Spark去做，其中我们还有一个XT平台，是美团点评内部基于Hive搭建的 ETL平台，它主要用来开发数据处理任务和数据传输任务，并且可以配置相关的任务调度信息。对代码做大范围的改动，降低了改造成本和出错概率。基于上述的选型思路，服务的三个核心架构分别选择了Spring，Spark和Alluxio。其中Spring的应用非常广泛，在实际案例和文档上都非常丰富，很容易落地实现；Spark本身是一个非常优秀的分布式计算框架，目前团队对Spark有很强的掌控力，调优经验也很丰富，这样只需要专注在计算逻辑的开发即可； Alluxio相对HDFS或HBas 多层异构存储，这些特性可能会在后续优化中得到利用。在具体的部署方式上，Spring Server单独启动，Spark和Alluxio都采用Standalone模式，且两个服务的 slave节点在物理机上共同部署。Spring进程中通过SparkContext维持一个Spark长作业，这样接到查询请求后可以快速提交逻辑，避免了申请节点资源和启动Executor的时间开销。每天数百亿

0 码力 | 229 页 | 61.61 MB | 1 年前
3
2022年美团技术年货合辑

完整的模型开发迭代过程至少包括三个阶段：准备数据集、定义模型和训练任务、训练和评测模型。我们分析用户在这三个阶段的需求，提供相应工具提升开发效率： ● 数据集管理：从业务数据构造图是模型开发的第一步，图学习平台提供基于 Spark 的构图功能，可以将 Hive 中存储的业务数据转化为 Tulong 自定义的图数据格式。业务数据经常以事件日志的方式存储，如何从中抽象出图，有大量的选择。例如，在推荐场景中，业务日志包含用户对商家的点击和下单记案。图学习平台针对常见的“构图、训练、评测、导出”流程提供了自动化的调度，在适当的时候可以复用前一阶段的结果，以提升效率。例如，如果数据集的定义没有变算法 < 81 化，可以跳过 Spark 构图阶段直接使用已有的图数据。此外，针对模型上线的需求，平台提供构图和建模方案整合和定时调度等功能。 7. 总结本文介绍了美团搜索与 NLP 团队在图神经网络框架建设方面的实践经验，包括算法是一种同构信息网络中的相似度量算法，它的思想是：如果两个用户相似，则与这两个用户相关联的物品也类似；如果两个物品类似，则与这两个物品相关联的用户 304 > 2022年美团技术年货也类似。该算法的优点是可以使用 Spark 进行大规模全局优化，并且边权重可以根据需要调整。优化构图后人工评测 SimRank++ 优化前后查询改写数据量提升了约 30%，同时准确率从 72% 提升到 83%。图 6 改进构图方法的图方法挖掘

0 码力 | 1356 页 | 45.90 MB | 1 年前
3
海尔实时计算平台技术选型与实践

Canal Scribe ZeroMQ ActiveMQ Logstash RabbitMQ Jafka RabbitMQ Storm JStrom Samza Heron Spark Flink Ganglia Sqoop zeppelin Saiku Caravel CBoard Nagios 实时数据采集技术选型要求 • 完整 • 低延时 • 不影响业务系统性能 •Uber开源Kafka监控工具--Chaperone Kafka web监控管理界面流式计算可选方案仅流处理框架: • Storm • JStorm • Samza • Heron 混合框架: • Spark • Flink Core Storm or Storm Trident？ Storm Trident： • Batch • Exactly-once 选型考虑： • 性能 • 状态

0 码力 | 41 页 | 3.21 MB | 1 年前
3
5 How to integrate Graph mode into RDBMS smoothly

Worker Spark Driver TiKV Cluster (Storage) Metadata TiKV TiKV TiKV MySQL Clients Syncer Data location Job TiSpark DistSQL API TiKV TiDB TSO/Data location Worker Worker Spark Cluster

0 码力 | 26 页 | 1.14 MB | 1 年前
3
06 PHP基本语法 — 条件、循环、函数杨亮《PHP语⾔程序设计》

echo $tireqty." tires
"; 15 echo $oilqty." bottles of oil
"; 16 echo $sparkqty." spark plugs
"; 17 } 18 19 if ($tireqty < 10) { 20 $discount = 0; 21 } elseif (($tireqty >= 10) 5 100 10 150 15 200 20 250 25 while for 数组与循环 2 $prices = array('Tires'=>100, 'Oil'=>10, 'Spark Plugs'=>4); 3 4 foreach ($prices as $key => $value) { 5 echo $key." – ".$value."
";

0 码力 | 25 页 | 1.30 MB | 1 年前
3
2020美团技术年货算法篇

PaddlePaddle 以及腾讯的 TI 平台，也有很多开源的产品，如加州大学伯克利分校的 Caffe、Google 的 TensorFlow、Facebook 的 PyTorch 以及 Apache 的 Spark MLlib 等。而开源平台大都是机器学习或者深度学习基础计算框架，聚焦于训练机器学习或深度学习模型；公司的商用产品则是基于基础的机器学习和深度学习计算框架进行二次开发，提供一站式的生该平台底层依托于 Hadoop/Yarn 进行资源调度管理，集成了 Spark ML、 XGBoost、TensorFlow 三种机器学习框架，并保留了扩展性，方便接入其它机器学习框架，如美团自研的 MLX（超大规模机器学习平台，专为搜索、推荐、广告等排序问题定制，支持百亿级特征和流式更新）。 ● 通过对 Spark ML、XGBoost、TensorFlow 机器学习框架的封装，我们实现支持用户把特征和模型的入参关联起来，方便在线预测时模型自动获取特征，极大地简化了算法 RD 构造模型输入时获取特征的工作量。 3.2 模型管理平台前面介绍了，我们的图灵平台集成了 Spark ML、XGBoost、TensorFlow 三种底层训练框架，基于此，我们的训练平台产出的机器学习模型种类也非常多，简单的有 LR、SVM，树模型有 GBDT、RF、XGB 等，深度学习模型有

0 码力 | 317 页 | 16.57 MB | 1 年前
3
2.5 Go在猎豹移动的应用

restart依赖健康检测；  api质量监控，使用日志来追踪，通过本地日志+flume+hdfs+hive；  实时监控可以考虑flume sink到kafka，再依赖Spark计算； RPC  协议&远程调用的选型；  net/rpc，thrift，grpc等；  链路追踪，参考Google Dapper论文，核心思路是关键库植入代码，因为缺乏

0 码力 | 24 页 | 4.26 MB | 1 年前
3
How to start a VC-backed startup

Framework from MIT ● You can learn it ● Explore and validate ○ Not 100%, but accurateHave you found a spark? ● In B2B 100+ conversations with the target audience: ○ Notes showing a trend. ○ Commitments?

0 码力 | 32 页 | 7.43 MB | 6 月前
3

共 32 条前往

页

分类

语言

格式

Go 构建大型开源分布式数据库技术内幕

05 PHP基本语法 - 变量、数组、字符串杨亮《PHP语⾔程序设计》

美团点评2018技术年货

2022年美团技术年货合辑

海尔实时计算平台技术选型与实践

5 How to integrate Graph mode into RDBMS smoothly

06 PHP基本语法 — 条件、循环、函数杨亮《PHP语⾔程序设计》

2020美团技术年货算法篇

2.5 Go在猎豹移动的应用

How to start a VC-backed startup