数据管道
数据工程
构建数据工程基础架构
主题:安装和配置 Apache NiFi,安装和配置 Apache Airflow ,安装和配置 Elasticsearch ,安装和配置 Kibana ,安装和配置 PostgreSQL ,安装 pgAdmin 4
读写文件
主题:在 Python 中读取和写入文件 ,在 Airflow 中处理文件 ,用于处理文件的 NiFi 处理器 ,在 Python 中读取和写入数据到数据库 ,Airflow 中的数据库 ,NiFi 中的数据库处理器
数据库
主题:在 Python 中插入和提取关系数据 ,在 Python 中插入和提取 NoSQL 数据库数据 , 在 Airflow 中构建数据库管道 , 在 NiFi 中构建数据库管道
清理、转换和丰富数据
主题:在 Python 中执行探索性数据分析 , 使用 pandas 处理常见数据问题 , 使用 Airflow 清理数据
构建SeeClickFix数据管道
主题:构建数据管道 , 构建 Kibana 仪表板
部署生产数据管道
生产管道的特征
主题:暂存和验证数据 , 构建幂等数据管道 ,构建原子数据管道
使用 NiFi 注册表进行版本控制
主题:安装和配置 NiFi 注册表 , 在 NiFi 中使用注册表 , 对数据管道进行版本控制 , 将 git-persistence 与 NiFi 注册表一起使用
监控数据管道
主题:在 GUI 中监控 NiFi ,使用处理器监控 NiFi , 使用 Python 和 REST API 监控 NiFi
构建生产数据管
主题:最终确定生产数据管道 ,使用 NiFi 变量注册表 , 部署数据管道
实时数据管道
构建 Kafka 集群
主题:创建 ZooKeeper 和 Kafka 集群 , 测试 Kafka 集群
使用 Apache Spark 进行数据处理
主题:了解日志 , 了解 Kafka 如何使用日志 , 使用 Kafka 和 NiFi 构建数据管道 , 区分流处理和批处理 ,使用 Python 进行生产和消费
使用 MiNiFi、Kafka 和 Spark 的实时边缘数据
主题:安装和运行Spark,安装和配置Pyspark,使用Pyspark处理数据
使用 Apache Kafka 流式传输数据
主题:在设备上设置 MiNiFi , 在 NiFi 中构建和部署 MiNiFi 任务