Apache Flink的过去、现在和未来Apache Flink的过去、现在和未来 杨克特(鲁尼) 阿里巴巴高级技术专家 过去 一切从2014年开始 2009 - 2014 2014 • 柏林工业大学博士生项目 • 基于流式 runtime 的批处理引擎 • 2014 年 8 月份 发布 Flink 0.6.0 Flink 0.7 Runtime Distributed Streaming Dataflow DataStream DataStream API Stream Processing DataSet API Batch Processing 2014 年 12 月份 发布 – 开始正式支持 DataStream Flink 0.9 Sink Source Offset Computation State Periodic Snapshots 2015 年 6 月份 发布 – 开始内置支持 State Global Part of Checkpoint N-1 • 吞吐和延迟不再是一个 tradeoff • 支持精准一次的语义,同时对性能的影响较低 基于 Chandy – Lamport 算法 Flink 1.0 版本基石 Checkpoint 基于 Chandy-Lamport 算法,实现了分布式一 致性快照,提供了一致 性的语义。 丰富的 State API。 ValueState0 码力 | 33 页 | 3.36 MB | 1 年前3
监控Apache Flink应用程序(入门)监控Apache Flink应用程序(入门) caolei Exported on 01/10/2020 caolei – 监控Apache Flink应用程序(入门) – 2 Table of Contents 1 Flink指标体系 ...................................................................... ........................................................................ 21 caolei – 监控Apache Flink应用程序(入门) – 3 4.13.2.1 Key Metrics ............................................................ 监控Apache Flink应用程序(入门) – 4 原文地址:https://www.ververica.com/blog/monitoring-apache-flink-applications-101 这篇博文介绍了Apache Flink内置的监控和度量系统,通过该系统,开发人员可以有效地监控他们的Flink作 业。通常,对于一个刚刚开始使用Apache Flink进行流处理的De0 码力 | 23 页 | 148.62 KB | 1 年前3
【05 计算平台 蓉荣】Flink 批处理及其应⽤Flink 批处理理及其应⽤用 What is Apache Flink * Apache Flink 是⼀一个分布式⼤大数据处理理引擎 * 可对有限数据流和⽆无限数据流进⾏行行有状态计算 * 可部署在各种集群环境 * 对各种⼤大⼩小的数据规模进⾏行行快速计算 为什什么Flink能做批处理理 Table Stream Bounded Data Unbounded Data Data SQL Runtime SQL ⾼高吞吐 低延时 Hive vs. Spark vs. Flink Batch Hive/Hadoop Spark Flink 模型 MR MR(Memory/Disk) Pipeline 吞吐 TB-PB TB-PB 未经⼤大规模⽣生产验证 性能 ⼀一般(分钟⼩小时级别) 快(秒级) 优秀 x2 稳定性 好 ⼀一般 已在阿⾥里里内部验证 HiveSQL SparkSQL ANSI SQL 易易⽤用性 ⼀一般 易易⽤用 ⼀一般 ⼯工具/⽣生态 ⼀一般 丰富 ⼀一般 Flink Batch应⽤用 - 数据湖 Data Lake vs. Data Warehouse Flink Batch应⽤用 - 数据湖 Flink Batch应⽤用 - 数据湖 Blink SQL+UDF Queue 存储类 存储 计算 存储 Queue0 码力 | 12 页 | 1.44 MB | 1 年前3
Flink如何实时分析Iceberg数据湖的CDC数据Flink如何实时分析Iceberg数据湖的CDC数据 阿里巴巴 李/松/胡争 23选择 Flink Ic+b+1g #2 常DCCDC 分析方案 #1 如3实时写 4F取 ## 未来规划 #4 #见的CDC分析方案 #1 离线 HBase 集u分析 CDC 数a 、CDC记录实时写入HBase。高吞P + 低延迟。 2、小vSg询延迟低。 3、集u可拓展 ci评C 1、增量和全量表割p,时效性不足。 2、r计和l护额外hChang+ S+4表。 3、计算引擎并非原g支UCDC。 4、不支U实时U13+24。 缺点 为何选择 #+ink Iceberg ? #2 Flink 原生支持 C C 数据消费 ebezium 1lHLI W生支持 ./. 数据消费 -- BPDaRDs a mysOl BCB RaAlD sMSPBD .R0,T0 T,-L0 mysOl_AHLlMF =PP0R LamD), CDsBPHNRHML, UDHFGR 1RO6 mysOl_AHLlMF; FHRGSA.BMm/TDPTDPHBa/ElHLI-BCB-BMLLDBRMPs Flink 原生支持 Change Log Stream A C D E F G INSERT DELETE UPDATE INSERT DELETE UPDATE INSERT0 码力 | 36 页 | 781.69 KB | 1 年前3
SelectDB案例 从 ClickHouse 到 Apache DorisMySQL、Elasticsearch 等数据库的联邦查 询分析。 导入方式多样,支持从 HDFS/S3 等远端存储批量导入,也支持读取 MySQL Binlog 以及订阅消息队列 Kafka 中的数据,还可以通过 Flink Connector 实时/批次同步数 据源(MySQL,Oracle,PostgreSQL 等)到 Doris。**** 社区目前 Apache Doris 社区活跃、技术交流更多,SelectDB 中构建宽表,解决了架构 1.0 中 上游数据更新延迟导致整个宽表延迟的问题,进而提升了数据的时效性。数据(指 标、标签等)通过 Spark 统一离线加载到 Kafka 中,使用 Flink 将数据增量更新到 Doris 和 ES 中(利用 Flink 实现进一步的聚合,减轻了 Doris 和 ES 的更新压力)。 加速层:该层主要将大宽表拆为小宽表,根据更新频率配置不同的分区策略,减小 数据冗余带来的存储压力,提高查询吞吐量。Doris 为了减轻 Doris 写入压力,我们考虑在数据写入 Doris 之前,尽量将数据生成宽表,再写 入到 Doris 中。针对宽表的生成,我们有两个实现思路:第一个是在 TDW 数仓中生成宽 表;第二个是 Flink 中生成宽表。我们对这两个实现思路进行了实践对比,最终决定选择第 二个实现思路,原因如下: 在 TDW 中生成宽表,虽然链路简单,但是弊端也比较明显。 存储成本较高, TDW 除了要维护离散的0 码力 | 12 页 | 1.55 MB | 1 年前3
πDataCS赋能工业软件创新与实践All rights reserved. OpenPie Confidential πDataCS的产品理念及定位 数据 计算 模型 灵活扩展的数据引擎,支持关系型数据库SQL、Spark/Flink 等流批⼀体处理、LLM的向量数据库以及GIS地理数据库等。 1 2 3 ⼤模型数据计算系统,以云原⽣技术重构数据存储和计算,⼀份数据,多引擎数据计算,AI数学模型、数据和 计算三者互为增强,全面升级⼤数据系统⾄⼤模型时代 用户可根据实际情况去选择合适的数据计算引擎。 灵活可扩展的插件式引擎,组件少⽽精(All in One),提供3种计算引擎、1种 Lakehouse引擎,1个硬件加速器,应对各种场景的计算,同时也兼容Spark、 Flink等计算任务,保留用户的使用习惯。 ⽣态完善,支持主流的开发语⾔和数据科学⼯具,支持多模数据处理(结构化、 半结构化以及非结构化),提供标准的SQL接⼝和API,完成各种复杂场景的数 据处理, 支持半结构化数据的查询(json/xml等数据格式), 应用开发不用再基于SPL查询语法,改用通用型的SQL语法即可,⼤⼤缩短了应用开发和迭代周期; Ø 具备流批⼀体化能⼒,兼容Spark和Flink等应用程序,替换了部分Spark应用(SparkSQL); Ø 与集团内部的云平台进⾏了统⼀集成,通过API接⼝实现了系统对接,统⼀进⾏租户和资源的管理,支持资源管控和 隔离、数据透明加密以及租户密钥隔离等;0 码力 | 36 页 | 4.25 MB | 1 年前3
尚硅谷大数据技术之Hadoop(入门)Z o o k e e p e r 数 据 平 台 配 置 和 调 度 数据来源层 数据传输层 数据存储层 资源管理层 数据计算层 任务调度层 业务模型层 Storm实时计算 Flink 图中涉及的技术名词解释如下: 1)Sqoop:Sqoop 是一款开源的工具,主要用于在 Hadoop、Hive 与传统的数据库(MySQL) 间进行数据的传递,可以将一个关系型数据库(例如 –python 人工智能资料下载,可百度访问:尚硅谷官网 4)Spark:Spark 是当前最流行的开源大数据内存计算框架。可以基于 Hadoop 上存储的大数 据进行计算。 5)Flink:Flink 是当前最流行的开源大数据内存计算框架。用于实时计算的场景较多。 6)Oozie:Oozie 是一个管理 Hadoop 作业(job)的工作流程调度管理系统。 7)Hbase:HBase 任务调度层 Storm实时计算 Ss购买海狗人参丸 Nginx Tomcat 收集访 问日志 Tomcat 收集访 问日志 Tomcat 推荐业务 分析结果数据库 分析结果文件 Flink 第 2 章 Hadoop 运行环境搭建(开发重点) 2.1 模板虚拟机环境准备 0)安装模板虚拟机,IP 地址 192.168.10.100、主机名称 hadoop100、内存 4G、硬盘0 码力 | 35 页 | 1.70 MB | 1 年前3
网易数帆 领先的数字化转型技术与服务提供商 2021构建的云原生中间件生命周期管理和自动化运维能力的 PaaS 平台。 轻舟中间件 云原生基础设施管理平台,支持应用从代码、部署、运维全生命周期管理。 轻舟混合云 15 大数据底座 Hadoop Spark Flink RDBMS MPP Arctic 数据传输中心 离线数据传输 实时数据传输 运维中心 离线开发平台 实时计算平台 集群运维 任务运维 文件管理 任务开发 租户管理 自助分析 权限管理 提供任务的全生命周期事件 管理,支持任务运行日志收集 与检索,支持任务运行状态各 维 度 metrics 的 汇 总 与 展 示,实现全链路监控与智能诊 断。 PRODUCT 基于 Apache Flink 构建的高性能、一站式实时大数据处理方案,广泛适用于流式数据处理场景。 有数实时计算平台 一站式、低门槛分析建模平台,帮助客户更快、更便捷、更智能地挖掘数据价值。 有数机器学习平台 19 产品能力 机器学习平台 深度客户运营 线上营销管理 精准运营管理 信贷风险管理 产品综合管理 合规经营管理 价值链 主要应 用场景 大数据开发中心 离线开发 分布式计算引擎(MapReduce/Spark/Flink) 分布式储存引擎(HDFS) X86服务器 国产ARM服务器 国产AI生态的K8S集群 GPU/CPU/高性能计算集群 Infrastructure(产品化基础架构) Algorithm0 码力 | 43 页 | 884.64 KB | 1 年前3
降级预案在同程艺龙的工程实践-王俊翔业务保障管理理后台 应⽤用JVM进程 故障动态注⼊入 Attach 故障注⼊入 指标聚合查询 熔断降级计算(Flink) ⽇日志中⼼心 KAFKA 数据采集、计算、存储 指标(HBase) 指标明细(ES) 降级⽇日志(ES) ETL 指标计算(Flink) 脚本引擎 查 询 服 务 ⽇日志数据 指标(Redis) 业务异常数据快照(ES) 熔断降级通知 降级服务管理理 指标规则计算 指标脚本 规则表达式 熔断 降级 条件 计算 降级消息 数据 存储 实时告警 规则配置 开发 ⽇日志解析规则 控制中⼼心 ETCD 降级服务 降级处理理 流处理理集群(Flink) HBase ES Redis 落地存储 数据服务 数据平台 实时告警 告警策略略 指标查询 指标脚本开发 指标配置 产品化 开发 复合指标计算如何处理理 ServiceA0 码力 | 26 页 | 18.67 MB | 1 年前3
2021 中国开源年度报告4504.277250498670 4807 60968 2 pingcap/tidb 3204 4551 10232 3601 3 apache/flink 3812.1036709421400 4724 13676 3 apache/flink 0 3258 13890 1544 4 PaddlePaddle/PaddleOCR 3461.304851224500 12519 8103 4 4504.277250498670 4807 60968 2 pingcap/tidb 3204 4551 10232 3601 3 apache/flink 3812.1036709421400 4724 13676 3 apache/flink 0 3258 13890 1544 4 PaddlePaddle/PaddleOCR 3461.304851224500 12519 8103 4 软件公司的从成立到上市的周期也在缩短,从早期的 10 到 15 年,缩短到现在的 3 到 8 年。我们甚至看 到 2-3 年就通过并购的方式进行资本退出的案例,例如 Streamlio 被 Splunk 公司收购和 Flink 被阿里 收购。 图表 3 :全球开源软件 VC 投资统计 图表 4 :主要开源软件公司资本退出周期 资料来源:Crunchbase,Pitchbook,云启资本 资料来源:Crunchbase,Pitchbook,云启资本0 码力 | 132 页 | 14.24 MB | 1 年前3
共 37 条
- 1
- 2
- 3
- 4













