2.flink基于hudi的数据湖实践

物料准备

准备工作

导入mysql数据

先下载sql文件

链接：https://pan.baidu.com/s/18eQ6cD35CT4qw_Ms6SgAcw
提取码：abcd

mysql开启binlog

将所需的lib放入$FLINK_HOME/lib/目录下

链接：https://pan.baidu.com/s/1VlNGoa15QxLNb8tevB-FeA
提取码：abcd

创建kafka topic

另：java dependencies

<properties>
        <maven.compiler.source>8</maven.compiler.source>
        <maven.compiler.target>8</maven.compiler.target>
        <flink.cdc.connector.version>2.0.2</flink.cdc.connector.version>
    </properties>
    <dependencies>
<!--        <dependency>-->
<!--            <groupId>org.apache.hudi</groupId>-->
<!--            <artifactId>hudi-spark3.1.2-bundle_2.12</artifactId>-->
<!--            <version>0.10.1</version>-->
<!--        </dependency>-->
        <dependency>
            <groupId>org.apache.hudi</groupId>
            <artifactId>hudi-flink-bundle_2.11</artifactId>
            <version>0.10.1</version>
        </dependency>
        <dependency>
            <groupId>com.ververica</groupId>
            <artifactId>flink-connector-mysql-cdc</artifactId>
            <version>${flink.cdc.connector.version}</version>
        </dependency>
        <dependency>
            <groupId>com.ververica</groupId>
            <artifactId>flink-connector-debezium</artifactId>
            <version>${flink.cdc.connector.version}</version>
        </dependency>
        <dependency>
            <groupId>com.ververica</groupId>
            <artifactId>flink-format-changelog-json</artifactId>
            <version>${flink.cdc.connector.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-connector-jdbc_2.11</artifactId>
            <version>1.13.5</version>
        </dependency>
        <dependency>
            <groupId>mysql</groupId>
            <artifactId>mysql-connector-java</artifactId>
            <version>5.1.49</version>
        </dependency>

        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-connector-kafka_2.11</artifactId>
            <version>1.13.5</version>
        </dependency>
    </dependencies>

实施操作

一建立kafka ODS层

参考第一篇文章启动flinksqlClient
https://apifox.com/apidoc/shared/fc096300-8ac8-4d53-8c45-bfea473118e3/6284549m0

创建mysql-cdc表

创建kafka sink表

将mysql binlog导入对应的topic

二基于ODS建立hudi维表

(1) base_province和base_region维表

将my5.base_province和my1.base_region两张区域维表信息写入hudi COW表中
cow表是读性能更好的表，维表作为读多写少的使用场景，适合采用cow

(2) 使用上述两张维表创建dim_province表

基于hudi表，来做实时join，从而的到关联之后的表，我们之前这一步是利用hbase采用代码的方式来实现的，hudi利用sql就直接做到了，减少很大的代码开发工作

(3) base_category1,base_category2,base_category3

(4) 将商品表导入hudi

(5) 建立dim_sku_info视图

这里利用join建立视图

三建立DWD层

建立order_info和order_detail的hudi表

基于上述两表建立dwd_paid_order_detail_hudi

四建立ADS层

经过上面的步骤，我们创建了一张dwd_paid_order_detail明细宽表，并将该表存储在了hudi中。接下来我们将使用这张明细宽表与维表进行JOIN，得到我们ADS应用层数据
这里实现了可以建立中间表的方式，来做join

总结：

hudi做到了不改变原有大数据组件的情况下，实现了准实时大处理数据。
亮点是可以依据sql的方式做到join，形成实时宽表。
改变了以往我们通过hbase，采用大量写java代码的方式才能做到的实时宽表的方式。
同时更多的照顾到sql的处理方式，例如可以先生成临时表再关联，更好更方便。
我认为最佳的方式是，利用hudi做join的操作，ADS层最好是放到clickhouse这样的OLAP库来实现。

2.flink基于hudi的数据湖实践

物料准备#

准备工作#

导入mysql数据#

先下载sql文件#

mysql开启binlog#

将所需的lib放入$FLINK_HOME/lib/目录下#

创建kafka topic#

另：java dependencies#

实施操作#

一 建立kafka ODS层#

创建mysql-cdc表#

创建kafka sink表#

将mysql binlog导入对应的topic#

二 基于ODS建立hudi维表#

(1) base_province和base_region维表#

(2) 使用上述两张维表创建dim_province表#

(3) base_category1,base_category2,base_category3#

(4) 将商品表导入hudi#

(5) 建立dim_sku_info视图#

三 建立DWD层#

建立order_info和order_detail的hudi表#

基于上述两表建立dwd_paid_order_detail_hudi#

四 建立ADS层#

总结：#