Flink - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Apache Flink的过去、现在和未来

Apache Flink的过去、现在和未来杨克特（鲁尼）阿里巴巴高级技术专家过去一切从2014年开始 2009 - 2014 2014 • 柏林工业大学博士生项目 • 基于流式 runtime 的批处理引擎 • 2014 年 8 月份发布 Flink 0.6.0 Flink 0.7 Runtime Distributed Streaming Dataflow DataStream DataStream API Stream Processing DataSet API Batch Processing 2014 年 12 月份发布 – 开始正式支持 DataStream Flink 0.9 Sink Source Offset Computation State Periodic Snapshots 2015 年 6 月份发布 – 开始内置支持 State Global Part of Checkpoint N-1 • 吞吐和延迟不再是一个 tradeoff • 支持精准一次的语义，同时对性能的影响较低基于 Chandy – Lamport 算法 Flink 1.0 版本基石 Checkpoint 基于 Chandy-Lamport 算法，实现了分布式一致性快照，提供了一致性的语义。丰富的 State API。 ValueState

0 码力 | 33 页 | 3.36 MB | 1 年前
3
监控Apache Flink应用程序(入门)

监控Apache Flink应用程序(入门) caolei Exported on 01/10/2020 caolei – 监控Apache Flink应用程序(入门) – 2 Table of Contents 1 Flink指标体系 ...................................................................... ........................................................................ 21 caolei – 监控Apache Flink应用程序(入门) – 3 4.13.2.1 Key Metrics ............................................................ 监控Apache Flink应用程序(入门) – 4 原文地址：https://www.ververica.com/blog/monitoring-apache-flink-applications-101 这篇博文介绍了Apache Flink内置的监控和度量系统，通过该系统，开发人员可以有效地监控他们的Flink作业。通常，对于一个刚刚开始使用Apache Flink进行流处理的De

0 码力 | 23 页 | 148.62 KB | 1 年前
3
【05 计算平台蓉荣】Flink 批处理及其应⽤

Flink 批处理理及其应⽤用 What is Apache Flink * Apache Flink 是⼀一个分布式⼤大数据处理理引擎 * 可对有限数据流和⽆无限数据流进⾏行行有状态计算 * 可部署在各种集群环境 * 对各种⼤大⼩小的数据规模进⾏行行快速计算为什什么Flink能做批处理理 Table Stream Bounded Data Unbounded Data Data SQL Runtime SQL ⾼高吞吐低延时 Hive vs. Spark vs. Flink Batch Hive/Hadoop Spark Flink 模型 MR MR(Memory/Disk) Pipeline 吞吐 TB-PB TB-PB 未经⼤大规模⽣生产验证性能⼀一般(分钟⼩小时级别) 快(秒级) 优秀 x2 稳定性好⼀一般已在阿⾥里里内部验证 HiveSQL SparkSQL ANSI SQL 易易⽤用性⼀一般易易⽤用⼀一般⼯工具/⽣生态⼀一般丰富⼀一般 Flink Batch应⽤用 - 数据湖 Data Lake vs. Data Warehouse Flink Batch应⽤用 - 数据湖 Flink Batch应⽤用 - 数据湖 Blink SQL+UDF Queue 存储类存储计算存储 Queue

0 码力 | 12 页 | 1.44 MB | 1 年前
3
Flink如何实时分析Iceberg数据湖的CDC数据

Flink如何实时分析Iceberg数据湖的CDC数据阿里巴巴李/松/胡争 23选择 Flink Ic+b+1g #2 常DCCDC 分析方案 #1 如3实时写 4F取 ## 未来规划 #4 #见的CDC分析方案 #1 离线 HBase 集u分析 CDC 数a 、CDC记录实时写入HBase。高吞P + 低延迟。 2、小vSg询延迟低。 3、集u可拓展 ci评C 1、增量和全量表割p，时效性不足。 2、r计和l护额外hChang+ S+4表。 3、计算引擎并非原g支UCDC。 4、不支U实时U13+24。缺点为何选择 #+ink Iceberg ? #2 Flink 原生支持 C C 数据消费 ebezium 1lHLI W生支持 ./. 数据消费 -- BPDaRDs a mysOl BCB RaAlD sMSPBD .R0,T0 T,-L0 mysOl_AHLlMF =PP0R LamD), CDsBPHNRHML, UDHFGR 1RO6 mysOl_AHLlMF; FHRGSA.BMm/TDPTDPHBa/ElHLI-BCB-BMLLDBRMPs Flink 原生支持 Change Log Stream A C D E F G INSERT DELETE UPDATE INSERT DELETE UPDATE INSERT

0 码力 | 36 页 | 781.69 KB | 1 年前
3
SelectDB案例从 ClickHouse 到 Apache Doris

MySQL、Elasticsearch 等数据库的联邦查询分析。  导入方式多样，支持从 HDFS/S3 等远端存储批量导入，也支持读取 MySQL Binlog 以及订阅消息队列 Kafka 中的数据，还可以通过 Flink Connector 实时/批次同步数据源（MySQL,Oracle,PostgreSQL 等）到 Doris。****  社区目前 Apache Doris 社区活跃、技术交流更多，SelectDB 中构建宽表，解决了架构 1.0 中上游数据更新延迟导致整个宽表延迟的问题，进而提升了数据的时效性。数据（指标、标签等）通过 Spark 统一离线加载到 Kafka 中，使用 Flink 将数据增量更新到 Doris 和 ES 中（利用 Flink 实现进一步的聚合，减轻了 Doris 和 ES 的更新压力）。  加速层：该层主要将大宽表拆为小宽表，根据更新频率配置不同的分区策略，减小数据冗余带来的存储压力，提高查询吞吐量。Doris 为了减轻 Doris 写入压力，我们考虑在数据写入 Doris 之前，尽量将数据生成宽表，再写入到 Doris 中。针对宽表的生成，我们有两个实现思路：第一个是在 TDW 数仓中生成宽表；第二个是 Flink 中生成宽表。我们对这两个实现思路进行了实践对比，最终决定选择第二个实现思路，原因如下：在 TDW 中生成宽表，虽然链路简单，但是弊端也比较明显。  存储成本较高， TDW 除了要维护离散的

0 码力 | 12 页 | 1.55 MB | 1 年前
3
πDataCS赋能工业软件创新与实践

All rights reserved. OpenPie Confidential πDataCS的产品理念及定位数据计算模型灵活扩展的数据引擎，支持关系型数据库SQL、Spark/Flink 等流批⼀体处理、LLM的向量数据库以及GIS地理数据库等。 1 2 3 ⼤模型数据计算系统，以云原⽣技术重构数据存储和计算，⼀份数据，多引擎数据计算，AI数学模型、数据和计算三者互为增强，全面升级⼤数据系统⾄⼤模型时代用户可根据实际情况去选择合适的数据计算引擎。灵活可扩展的插件式引擎，组件少⽽精（All in One），提供3种计算引擎、1种 Lakehouse引擎，1个硬件加速器，应对各种场景的计算，同时也兼容Spark、 Flink等计算任务，保留用户的使用习惯。⽣态完善，支持主流的开发语⾔和数据科学⼯具，支持多模数据处理（结构化、半结构化以及非结构化），提供标准的SQL接⼝和API，完成各种复杂场景的数据处理，支持半结构化数据的查询（json/xml等数据格式），应用开发不用再基于SPL查询语法，改用通用型的SQL语法即可，⼤⼤缩短了应用开发和迭代周期； Ø 具备流批⼀体化能⼒，兼容Spark和Flink等应用程序，替换了部分Spark应用（SparkSQL）； Ø 与集团内部的云平台进⾏了统⼀集成，通过API接⼝实现了系统对接，统⼀进⾏租户和资源的管理，支持资源管控和隔离、数据透明加密以及租户密钥隔离等；

0 码力 | 36 页 | 4.25 MB | 1 年前
3
尚硅谷大数据技术之Hadoop（入门）

Z o o k e e p e r 数据平台配置和调度数据来源层数据传输层数据存储层资源管理层数据计算层任务调度层业务模型层 Storm实时计算 Flink 图中涉及的技术名词解释如下： 1）Sqoop：Sqoop 是一款开源的工具，主要用于在 Hadoop、Hive 与传统的数据库（MySQL）间进行数据的传递，可以将一个关系型数据库（例如 –python 人工智能资料下载，可百度访问：尚硅谷官网 4）Spark：Spark 是当前最流行的开源大数据内存计算框架。可以基于 Hadoop 上存储的大数据进行计算。 5）Flink：Flink 是当前最流行的开源大数据内存计算框架。用于实时计算的场景较多。 6）Oozie：Oozie 是一个管理 Hadoop 作业（job）的工作流程调度管理系统。 7）Hbase：HBase 任务调度层 Storm实时计算 Ss购买海狗人参丸 Nginx Tomcat 收集访问日志 Tomcat 收集访问日志 Tomcat 推荐业务分析结果数据库分析结果文件 Flink 第 2 章 Hadoop 运行环境搭建（开发重点） 2.1 模板虚拟机环境准备 0）安装模板虚拟机，IP 地址 192.168.10.100、主机名称 hadoop100、内存 4G、硬盘

0 码力 | 35 页 | 1.70 MB | 1 年前
3
网易数帆领先的数字化转型技术与服务提供商 2021

构建的云原生中间件生命周期管理和自动化运维能力的 PaaS 平台。轻舟中间件云原生基础设施管理平台，支持应用从代码、部署、运维全生命周期管理。轻舟混合云 15 大数据底座 Hadoop Spark Flink RDBMS MPP Arctic 数据传输中心离线数据传输实时数据传输运维中心离线开发平台实时计算平台集群运维任务运维文件管理任务开发租户管理自助分析权限管理提供任务的全生命周期事件管理，支持任务运行日志收集与检索，支持任务运行状态各维度 metrics 的汇总与展示，实现全链路监控与智能诊断。 PRODUCT 基于 Apache Flink 构建的高性能、一站式实时大数据处理方案，广泛适用于流式数据处理场景。有数实时计算平台一站式、低门槛分析建模平台，帮助客户更快、更便捷、更智能地挖掘数据价值。有数机器学习平台 19 产品能力机器学习平台深度客户运营线上营销管理精准运营管理信贷风险管理产品综合管理合规经营管理价值链主要应用场景大数据开发中心离线开发分布式计算引擎（MapReduce/Spark/Flink）分布式储存引擎（HDFS） X86服务器国产ARM服务器国产AI生态的K8S集群 GPU/CPU/高性能计算集群 Infrastructure（产品化基础架构） Algorithm

0 码力 | 43 页 | 884.64 KB | 1 年前
3
降级预案在同程艺龙的工程实践-王俊翔

业务保障管理理后台应⽤用JVM进程故障动态注⼊入 Attach 故障注⼊入指标聚合查询熔断降级计算（Flink）⽇日志中⼼心 KAFKA 数据采集、计算、存储指标（HBase）指标明细（ES）降级⽇日志（ES） ETL 指标计算（Flink）脚本引擎查询服务⽇日志数据指标（Redis）业务异常数据快照（ES）熔断降级通知降级服务管理理指标规则计算指标脚本规则表达式熔断降级条件计算降级消息数据存储实时告警规则配置开发⽇日志解析规则控制中⼼心 ETCD 降级服务降级处理理流处理理集群（Flink） HBase ES Redis 落地存储数据服务数据平台实时告警告警策略略指标查询指标脚本开发指标配置产品化开发复合指标计算如何处理理 ServiceA

0 码力 | 26 页 | 18.67 MB | 1 年前
3
2021 中国开源年度报告

4504.277250498670 4807 60968 2 pingcap/tidb 3204 4551 10232 3601 3 apache/flink 3812.1036709421400 4724 13676 3 apache/flink 0 3258 13890 1544 4 PaddlePaddle/PaddleOCR 3461.304851224500 12519 8103 4 4504.277250498670 4807 60968 2 pingcap/tidb 3204 4551 10232 3601 3 apache/flink 3812.1036709421400 4724 13676 3 apache/flink 0 3258 13890 1544 4 PaddlePaddle/PaddleOCR 3461.304851224500 12519 8103 4 软件公司的从成立到上市的周期也在缩短，从早期的 10 到 15 年，缩短到现在的 3 到 8 年。我们甚至看到 2-3 年就通过并购的方式进行资本退出的案例，例如 Streamlio 被 Splunk 公司收购和 Flink 被阿里收购。图表 3 ：全球开源软件 VC 投资统计图表 4 ：主要开源软件公司资本退出周期资料来源：Crunchbase，Pitchbook，云启资本资料来源：Crunchbase，Pitchbook，云启资本

0 码力 | 132 页 | 14.24 MB | 1 年前
3

共 37 条前往

页

分类

语言

格式

Apache Flink的过去、现在和未来

监控Apache Flink应用程序(入门)

【05 计算平台蓉荣】Flink 批处理及其应⽤

Flink如何实时分析Iceberg数据湖的CDC数据

SelectDB案例从 ClickHouse 到 Apache Doris

πDataCS赋能工业软件创新与实践

尚硅谷大数据技术之Hadoop（入门）

网易数帆领先的数字化转型技术与服务提供商 2021

降级预案在同程艺龙的工程实践-王俊翔

2021 中国开源年度报告