PyFlink 1.15 Documentation
266.77 KB
36 页
0 评论
| 语言 | 格式 | 评分 |
|---|---|---|
英语 | .pdf | 3 |
| 摘要 | ||
文档介绍了PyFlink 1.15的功能和使用方法,包括如何构建可扩展的批处理和流处理工作负载,以及如何利用PyFlink的两种API:Table API和DataStream API。文档详细说明了PyFlink的安装步骤,包括使用pip、conda和源代码安装,并提供了Python版本的支持信息。同时,文档展示了如何通过实时笔记本快速入门Table API和DataStream API,并提供了代码示例来说明如何创建执行环境、处理表数据以及执行各种表操作,如选择、过滤和转换。此外,文档还涵盖了如何在Table API中应用用户定义函数(UDF)以及如何将表数据转换为Pandas DataFrame. | ||
| AI总结 | ||
《PyFlink 1.15 Documentation》摘要
PyFlink 是 Apache Flink 的 Python API,支持构建可扩展的批处理和流处理工作负载,例如实时数据处理管道、大规模数据分析、机器学习(ML)管道和 ETL 过程。PyFlink 提供了两种 API:Table API 和 DataStream API,用户可以根据需要选择不同的抽象层次。
核心功能与核心API
1. PyFlink Table API:支持表格操作,提供简洁易用的 API,适合处理结构化数据。示例包括创建表格、转换数据、筛选行、添加列以及执行用户定义函数(UDF)。
2. PyFlink DataStream API:提供对流数据的精细控制,适合构建复杂的流处理应用。核心包括流执行环境的创建、配置和作业提交。
安装与环境配置
1. 安装需求:
- 通过 pip 安装:`python3 -m pip install apache-flink`
- 通过 conda 安装:`conda install -c conda-forge apache-flink`
- 从源码安装:参考文档中的详细步骤
2. 创建虚拟环境:
- 使用 virtualenv:`python3 -m pip install virtualenv`,然后创建并激活虚拟环境。
- 使用 conda:创建指定版本的虚拟环境,并激活使用。
快速入门指南
1. Table API 快速入门:
- 示例包括从表中选择数据、筛选行、添加新列、执行函数等。
- 支持将表格转换为 Pandas DataFrame,利用 Pandas 的强大生态。
2. DataStream API 快速入门:
- 创建流执行环境:`StreamExecutionEnvironment.get_execution_environment()`
- 配置运行时模式,如流模式:`env.set_runtime_mode(RuntimeExecutionMode.STREAMING)`。
版本兼容性
- PyFlink 1.15 支持 Python 3.6 到 3.8 版本。
- 安装时需确保 Flink 版本与 PyFlink 版本一致。 | ||
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余
29 页请下载阅读 -
文档评分














Celery 3.0 Documentation