龙空技术网

大数据Hadoop之——Apache Hudi 与 Presto/Trino集成

大数据老司机 4382

前言:

现在朋友们对“apachesvnlocation”大体比较关注,你们都需要分析一些“apachesvnlocation”的相关知识。那么小编同时在网络上网罗了一些对于“apachesvnlocation””的相关知识,希望小伙伴们能喜欢,小伙伴们快快来学习一下吧!

一、概述

Apache Hudi是一个快速增长的数据湖存储系统,可帮助组织构建和管理PB级数据湖。Hudi通过引入诸如升序、删除和增量查询之类的原语,将流式处理引入到批处理式大数据中。这些功能有助于在统一服务层上更快、更新鲜的数据。Hudi表可以存储在Hadoop分布式文件系统(HDFS)或云存储上,并与流行的查询引擎(如Presto(Trino)、Apache Hive、ApacheSpark和Apache Impala)集成良好。鉴于Hudi开创了一种新的模型,它不仅仅是将文件写入到一个更受管理的存储层,该存储层可以与所有主要的查询引擎进行互操作,因此在集成点是如何演变的方面有了有趣的经验。

使用presto或者trino分析hudi表数据,最终将结果存储到mysql表中。

Hive中创建表,关联Hudi表Presto集成Hive,加载Hive表数据Presto集成MySQL,读取或者保存数据二、Trino 环境部署

关于trino或者presto的介绍,可以参考我这篇文章:大数据Hadoop之——基于内存型SQL查询引擎Presto(Presto-Trino环境部署),这里部署trino单机版进行测试。

1)安装JDK

【注意】Trino不同的版本要求的JDK版本也不一样的。这里我安装Trino最新版,JDK也安装最新版本。

wget  zulu19.30.11-ca-jdk19.0.1-linux_x64.zip

配置环境变量

# /etc/profile文件中追加如下内容:export JAVA_HOME=/opt/bigdata/trino/zulu19.30.11-ca-jdk19.0.1-linux_x64export PATH=$JAVA_HOME/bin:$PATHexport CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar# 加载生效source /etc/profile
2)安装python
# version 2.6.x, 2.7.x, or 3.xyum -y install python3python3 --versionln -s /usr/bin/python3 /usr/bin/python
3)安装Trino

这里部署单机版,Coordinator和Worker同进程。

1、下载解压并配置环境变量

wget  -xf trino-server-401.tar.gz# 配置环境变量/etc/profileexport TRINO_HOME=/opt/bigdata/trino/trino-server-401export PATH=$TRINO_HOME/bin:$PATH
2、修改配置

首先创建etc和data目录,后面配置文件需要用到

cd $TRINO_HOMEmkdir -p data etc/catalog
node.properties
cat << EOF > $TRINO_HOME/etc/node.properties# 环境的名字。集群中所有的Trino节点必须具有相同的环境名称。node.environment=dev# 此Trino安装的唯一标识符。这对于每个节点都必须是唯一的。node.id=trino-worker# 数据目录的位置(文件系统路径)。Trino在这里存储日志和其他数据。node.data-dir=/opt/bigdata/trino/trino-server-401/dataEOF
jvm.config
cat << EOF > $TRINO_HOME/etc/jvm.config-server-Xmx2G-XX:+UseG1GC-XX:G1HeapRegionSize=32M-XX:+ExplicitGCInvokesConcurrent-XX:+ExitOnOutOfMemoryError-XX:+HeapDumpOnOutOfMemoryError-XX:-OmitStackTraceInFastThrow-XX:ReservedCodeCacheSize=512M-XX:PerMethodRecompilationCutoff=10000-XX:PerBytecodeRecompilationCutoff=10000-Djdk.attach.allowAttachSelf=true-Djdk.nio.maxCachedBufferSize=2000000EOF
config.properties
cat << EOF > $TRINO_HOME/etc/config.properties# 设置该节点为coordinator节点coordinator=true# 允许在协调器上调度工作,也就是coordinator节点又充当worker节点用node-scheduler.include-coordinator=true# 指定HTTP服务器的端口。Trino使用HTTP进行内部和外部web的所有通信。http-server.http.port=9000# 查询可以使用的最大分布式内存。【注意】不能配置超过jvm配置的最大堆栈内存大小query.max-memory=1GB# 查询可以在任何一台机器上使用的最大用户内存。【注意】也是不能配置超过jvm配置的最大堆栈内存大小query.max-memory-per-node=1GB# hadoop-node1也可以是IPdiscovery.uri=
log.properties
cat << EOF > $TRINO_HOME/etc/log.properties# 设置日志级别,有四个级别:DEBUG, INFO, WARN and ERRORio.trino=INFOEOF
配置hive数据源,hive.properties
cat << EOF > $TRINO_HOME/etc/catalog/hive.propertiesconnector.name=hivehive.metastore.uri=thrift://local-168-182-130:9083hive.config.resources=/opt/bigdata/hadoop/hadoop-3.3.2/etc/hadoop/core-site.xml,/opt/bigdata/hadoop/hadoop-3.3.2/etc/hadoop/hdfs-site.xmlEOF
配置mysql数据源,mysql.properties
# 所有节点都得添加cat << EOF > $TRINO_HOME/etc/catalog/mysql.propertiesconnector.name=mysqlconnection-url=jdbc:mysql://local-168-182-130:3306connection-user=rootconnection-password=123456EOF
3、启动服务
$TRINO_HOME/bin/launcher start# 查看日志tail -f $TRINO_HOME/data/var/log/server.lognetstat -tnlp|grep :9000
4、测试验证

web访问验证:

下载对应trino版本的客户端进行连接测试

cd $TRINO_HOME/bin/wget  改名,加执行权限mv trino-cli-401-executable.jar trinochmod +x trino# 非交互式连接操作$TRINO_HOME/bin/trino --server local-168-182-130:9000 --execute="select * from system.runtime.nodes";### 交互式连接测试$TRINO_HOME/bin/trino --server local-168-182-130:9000# 命令不区分大小写show catalogs;# 查库show schemas from system;# 查表show tables from system.runtime;# 查具体记录,查看当前node节点记录select * from system.runtime.nodes;
三、在Hive中创建表关联Hudi表

hive 查询hudi 数据主要是在hive中建立外部表,数据路径指向hdfs 路径,同时hudi 重写了inputformatoutpurtformat。因为hudi 在读的数据的时候会读元数据来决定我要加载那些parquet文件,而在写的时候会写入新的元数据信息到hdfs路径下。所以hive 要集成hudi 查询要把编译的jar 包放到HIVE-HOME/lib 下面。否则查询时找不到inputformat和outputformat的类。

1)添加jar包

cp hudi/hudi-0.12.0/packaging/hudi-hive-sync-bundle/target/hudi-hive-sync-bundle-0.12.0.jar $HIVE_HOME/lib# 重启metastore服务nohup hive --service metastore &# 重启hiverserver2nohup hive --service hiveserver2 > /dev/null 2>&1 &# 查看日志tail -f /tmp/root/hive.log# 连接beeline -u jdbc:hive2://local-168-182-130:10000  -n root
2)创建库表关联Hudi
### 1、创建数据库CREATE DATABASE IF NOT EXISTS hudi_hive;USE hudi_hive;### 2、创建hive表,指定数据存储路径,关联hudi表路径。beeline -u jdbc:hive2://local-168-182-130:10000  -n rootCREATE EXTERNAL TABLE hudi_hive.tbl_customer(id string,customer_relationship_id string,create_date_time string,update_date_time string,deleted string,name string,idcard string,birth_year string,gender string,phone string,wechat string,qq string,email string,area string,leave_school_date string,graduation_date string,bxg_student_id string,creator string,origin_type string,origin_channel string,tenant string,md_id string)PARTITIONED BY (day_str string)ROW FORMAT SERDE'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe'STORED AS INPUTFORMAT'org.apache.hudi.hadoop.HoodieParquetInputFormat'OUTPUTFORMAT'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat'LOCATION'/hudi-hive/customer_hudi' ;

就会在DFS上创建相关的目录

数据来源可以是flink或者spark任务去写数据,根据具体场景而定。

四、Hudi 与 Trino集成

trino 集成hudi 是基于hive catalog, 同样是访问hive 外表进行查询,如果要集成,需要把hudi trino jar包copy 到trino plugin hive插件下面。

cp hudi/hudi-0.12.0/packaging/hudi-trino-bundle/target/hudi-trino-bundle-0.12.0.jar $TRINO_HOME/plugin/hive/

查询

$TRINO_HOME/bin/trino --server local-168-182-130:9000show schemas from hive;show tables from hive.hudi_hive;select * from hive.hudi_hive.tbl_customer;

trino或者presto将需要查询的数据进行统计写入到其它数据源,这是trino/presto的优势,因为trino/presto本身支持很多种数据源(catalog)。

Hudi与Trino(Presto)的集成讲解就先到这里了,有任何疑问欢迎给我留言,后面会持续更新【大数据+云原生】相关的文章,请小伙伴耐心等待~

标签: #apachesvnlocation