Flink|《Flink 官方文档》学习笔记目录
•
大数据
- Try Flink:本地模式安装;基于 DataStream API 实现欺诈检测;基于 Table API 实现实时报表;Flink 操作场景
- 实践练习:概览;DataStream API 简介;数据管道 & ETL;流式分析;事件驱动应用;容错管理
- 概念透析:概览;有状态流处理;及时流处理;Flink 架构;词汇表
- 应用开发
- 项目配置:概览;使用 Maven;使用 Gradle;连接器和格式;测试的依赖项;高级配置
- DataStream API
- 概览
- 执行模式(流 / 批)
- 事件时间:生成 Watermark;内置 Watermark 生成器
- 用户自定义 Functions
- 状态与容错:Working with State;Broadcast State 模式;Checkpointing;[State Backends](Flink|《Flink 官方文档 – DataStream API – 状态与容错 – State Backends》学习笔记);数据类型以及序列化(概览,状态数据结构升级,Custom State Serialization,自定义序列化器)
- 算子:概览;窗口;Joining;Process Function;异步 I/O
- 数据源
- 旁路输出
- Handling Application Parameters
- 测试
- 实验功能
- Scala API 扩展
- Java Lambda Expressions
- 管理执行:执行配置;程序打包;并行执行
- How to Migrate from DataSet to DataStream
- Table API & SQL
- 概览
- 概念与通用 API
- DataStream API Integration
- 流式概念:流式概念;动态表;流上的确定性;时间属性;时态表;Temporal Table Function
- 流式聚合
- 数据类型
- 时区
- Table API
- SQL:概览;入门;Queries 查询;CREATE 语句;DROP 语句;ALTER 语句;INSERT 语句;ANALYZE 语句;DESCRIBE 语句;TRUNCATE 语句;EXPLAIN 语句;USE 语句;SHOW 语句;LOAD 语句;UNLOAD 语句;SET 语句;RESET 语句;JAR 语句;JOB 语句;UPDATE 语句;DELETE 语句;CALL 语句
- 函数:函数;系统(内置)函数;自定义函数
- 存储过程
- 模块
- Catalogs
- SQL JDBC Driver
- SQL 客户端
- SQL Gateway:概览;REST Endpoint;HiveServer2 Endpoint
- Hive 兼容性
- Hive 方言
- Queries(Overview,Sort / Cluster / Distributed By,Group By,Join,Set Operations,Lateral View Clause,Window Functions,Sub-Queries,CTE,Transform Clause,Table Sample);概览;CREATE Statements;DROP Statements;ALTER Statements;INSERT Statements;Load Data Statements;SHOW Statements;ADD Statements;SET Statements
- HiveServer2 Endpoint
- Hive 方言
- 配置
- User-defined Sources & Sinks
- Python API
- 概览 + 环境安装 + 调试 + 环境变量 + 常见问题
- Table API 教程
- DataStream API 教程
- Table API:Python Table API 简介;TableEnvironment;Operators(OverView,Row-based Operations);数据类型;系统内置函数;自定义函数(概览,普通自定义函数,向量化自定义函数);PyFlink Table 和 Pandas DataFrame 互转;SQL;Catalogs;指标;连接器
- DataStream API:Python DataStream API 简介;Operators(Overview,Windows,Process Function);Data Types;State
- 依赖管理
- 执行模式
- 配置
- Libraries:事件处理;State Processor API
- Connectors
- DataStream Connectors:概览;Formats(Overview,Avro,Azure Table Storage,CSV,Hadoop,JSON,Parquet,Text files);容错保证;DataGen;Kafka;Cassandra;DynamoDB;Elasticsearch;Firehose;Kinesis;MongoDB;Opensearch;文件系统;RabbitMQ;Google Cloud PubSub;Hybrid Source;Pulsar;JDBC
- Table API Connectors:概览;Formats(Formats,CSV,JSON,Avro,Confluent Avro,Protobuf,Debezium,Canal,Maxwell,Ogg,Parquet,Orc,Raw);Kafka;Upsert Kafka;DynamoDB;Firehose;Kinesis;MongoDB;JDBC;Elasticserach;Openserach;文件系统;HBase;DataGen;Print;BlackHole;Hive(Overview,Hive Catalog,Hive Read & Write,Hive Functions);下载页面
- Deployment
- 概览
- Javba Compatibility
- Resource Providers:Standalone(概览,Working Directory,Docker,Kubernetes 设置);Native Kubernetes;YARN
- 配置参数
- 内存配置:配置 Flink 进程的内存;配置 TaskManager 内存;配置 JobManager 内存;调优指南 + 常见问题;升级指南;网络缓冲调优
- 弹性扩缩容
- 命令行界面
- 细粒度资源管理
- 预测执行
- File Systems:通用配置;文件系统;Amazon S3;Google Cloud Storage;阿里云 OSS;Azure Blob 存储;Plugins
- 高可用:概览;ZooKeeper 高可用服务;Kubernetes 高可用服务
- Metric Reporters
- Security:SSL 配置;Kerberos;Delegation tokens
- REPLs:Python REPL
- Advanced:扩展资源;History Server;日志;Failure Enrichers
- Operations
- 状态与容错:Checkpoints + Checkpointing under backpressure;Savepoints + Checkpoints 与 Savepoints;State Backends;大状态与 Checkpoint 调优;Task 故障恢复
- 指标
- REST API
- Batch:Batch Shuffle
- Debugging:调试窗口与事件时间 + 调试类加载 + 火焰图 + 应用程序分析与调试
- Monitoring:监控 Checkpoint + 监控反压
- 升级应用程序和 Flink 版本
- 生产就绪情况核对清单
- Flink 开发:导入 Flink 到 IDE 中;从源码构建 Flink
- 内幕:作业调度;Task 生命周期;文件系统
开发问题处理文档
- checkpoint 超时报错问题处理(FlinkRuntimeException)
- Flink|提交 PyFlink 作业的踩坑记录
本文来自网络,不代表协通编程立场,如若转载,请注明出处:https://www.net2asp.com/e5d1b73be2.html
