PyFlink 1.15 Documentation

语言	格式	评分
英语	.pdf	3
摘要
文档介绍了PyFlink 1.15的功能和使用方法，包括如何构建可扩展的批处理和流处理工作负载，以及如何利用PyFlink的两种API：Table API和DataStream API。文档详细说明了PyFlink的安装步骤，包括使用pip、conda和源代码安装，并提供了Python版本的支持信息。同时，文档展示了如何通过实时笔记本快速入门Table API和DataStream API，并提供了代码示例来说明如何创建执行环境、处理表数据以及执行各种表操作，如选择、过滤和转换。此外，文档还涵盖了如何在Table API中应用用户定义函数（UDF）以及如何将表数据转换为Pandas DataFrame.
AI总结
《PyFlink 1.15 Documentation》摘要 PyFlink 是 Apache Flink 的 Python API，支持构建可扩展的批处理和流处理工作负载，例如实时数据处理管道、大规模数据分析、机器学习（ML）管道和 ETL 过程。PyFlink 提供了两种 API：Table API 和 DataStream API，用户可以根据需要选择不同的抽象层次。核心功能与核心API 1. PyFlink Table API：支持表格操作，提供简洁易用的 API，适合处理结构化数据。示例包括创建表格、转换数据、筛选行、添加列以及执行用户定义函数（UDF）。 2. PyFlink DataStream API：提供对流数据的精细控制，适合构建复杂的流处理应用。核心包括流执行环境的创建、配置和作业提交。安装与环境配置 1. 安装需求： - 通过 pip 安装：`python3 -m pip install apache-flink` - 通过 conda 安装：`conda install -c conda-forge apache-flink` - 从源码安装：参考文档中的详细步骤 2. 创建虚拟环境： - 使用 virtualenv：`python3 -m pip install virtualenv`，然后创建并激活虚拟环境。 - 使用 conda：创建指定版本的虚拟环境，并激活使用。快速入门指南 1. Table API 快速入门： - 示例包括从表中选择数据、筛选行、添加新列、执行函数等。 - 支持将表格转换为 Pandas DataFrame，利用 Pandas 的强大生态。 2. DataStream API 快速入门： - 创建流执行环境：`StreamExecutionEnvironment.get_execution_environment()` - 配置运行时模式，如流模式：`env.set_runtime_mode(RuntimeExecutionMode.STREAMING)`。版本兼容性 - PyFlink 1.15 支持 Python 3.6 到 3.8 版本。 - 安装时需确保 Flink 版本与 PyFlink 版本一致。