pdf文档 PyFlink 1.15 Documentation

266.77 KB 36 页 0 评论
语言 格式 评分
英语
.pdf
3
摘要
文档介绍了PyFlink 1.15的功能和使用方法,包括如何构建可扩展的批处理和流处理工作负载,以及如何利用PyFlink的两种API:Table API和DataStream API。文档详细说明了PyFlink的安装步骤,包括使用pip、conda和源代码安装,并提供了Python版本的支持信息。同时,文档展示了如何通过实时笔记本快速入门Table API和DataStream API,并提供了代码示例来说明如何创建执行环境、处理表数据以及执行各种表操作,如选择、过滤和转换。此外,文档还涵盖了如何在Table API中应用用户定义函数(UDF)以及如何将表数据转换为Pandas DataFrame.
AI总结
《PyFlink 1.15 Documentation》摘要 PyFlink 是 Apache Flink 的 Python API,支持构建可扩展的批处理和流处理工作负载,例如实时数据处理管道、大规模数据分析、机器学习(ML)管道和 ETL 过程。PyFlink 提供了两种 API:Table API 和 DataStream API,用户可以根据需要选择不同的抽象层次。 核心功能与核心API 1. PyFlink Table API:支持表格操作,提供简洁易用的 API,适合处理结构化数据。示例包括创建表格、转换数据、筛选行、添加列以及执行用户定义函数(UDF)。 2. PyFlink DataStream API:提供对流数据的精细控制,适合构建复杂的流处理应用。核心包括流执行环境的创建、配置和作业提交。 安装与环境配置 1. 安装需求: - 通过 pip 安装:`python3 -m pip install apache-flink` - 通过 conda 安装:`conda install -c conda-forge apache-flink` - 从源码安装:参考文档中的详细步骤 2. 创建虚拟环境: - 使用 virtualenv:`python3 -m pip install virtualenv`,然后创建并激活虚拟环境。 - 使用 conda:创建指定版本的虚拟环境,并激活使用。 快速入门指南 1. Table API 快速入门: - 示例包括从表中选择数据、筛选行、添加新列、执行函数等。 - 支持将表格转换为 Pandas DataFrame,利用 Pandas 的强大生态。 2. DataStream API 快速入门: - 创建流执行环境:`StreamExecutionEnvironment.get_execution_environment()` - 配置运行时模式,如流模式:`env.set_runtime_mode(RuntimeExecutionMode.STREAMING)`。 版本兼容性 - PyFlink 1.15 支持 Python 3.6 到 3.8 版本。 - 安装时需确保 Flink 版本与 PyFlink 版本一致。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 29 页请下载阅读 -
文档评分
请文明评论,理性发言.