Zhi Blog
  1. Hudi
Zhi Blog
  • Zhi Blog
  • LLM&RAG&Agent
    • agent+大数据
    • deepseek的指令
    • 大模型控制电脑
    • 10.开发llm的两种方式
    • 11.展示写一个网站
    • 12.展示写一个reactflow前端
    • 13.大模型在反复迭代场景中的应用举例
    • 14.agent开发的workflow流程和自主编排
    • 15.利用大模型实现提示词的优化
    • 16.这就是为啥要学习提示词工程
    • 提示技巧
    • 17.提示词通用技巧以及提示词工程框架介绍
    • 18.Unsloth 大模型微调工具
    • autogen starter
    • MCP1:about MCP
    • MCP2: 如何用langchain创建自己的MCP server&client
    • 十分钟系列
      • 1.十分钟实现免费本地大模型对话框
      • 2.十分钟在本地部署大模型
      • 3.十分钟实现本地大模型部署并部署对话应用
      • 4.十分钟实现本地知识库部署
      • 5.十分钟在本地实现Deepseek R1 70B免费对话
      • 6.十分钟实现本地可视化开发Agent
      • 7.待补充
    • 参考
      • AI最大赛道Agent机遇全解析
      • 从第一性原理看大模型Agent技术
      • Agent项目
      • LLama部署和微调手册
      • Agent实战-JSON结构化智能
      • AI智能体卷爆大模型!AutoGPT等4大Agent打擂,「西部世界」谁将成为软件2.0
      • Agent调研--19类Agent框架对比
      • 国内近 50 款 AI Agent 产品问世,技术足够支撑应用可靠性了吗
      • 解析 AI Agent 的发展现状和技术难点
      • 清华大学与智谱 AI 联合推出 CogAgent:基于多模态大模型的 GUI Agent,具备视觉问答、视觉定位等能力
      • Agent 还没出圈,落地先有了“阻力”:进入平台期,智力能否独立担事?
      • 钉钉卡位战:SaaS 挣不到的钱,Agent 会挣到
      • 近三代操作系统开发元老一起创业搞 AI Agent 操作系统
      • 从科幻走向现实,LLM Agent 做到哪一步了
  • Hudi
    • 1.hudi介绍和简单实践
    • 2.flink基于hudi的数据湖实践
    • 3.概说hudi
  • Iceberg
    • iceberg初步实践
  1. Hudi

1.hudi介绍和简单实践

Apache Hudi代表Hadoop Upserts anD Incrementals,管理大型分析数据集在HDFS上的存储,本质上,Hudi并非是一种全新的文件格式,相反,它仅仅是充分利用了开源的列格式(Parquet)和行格式(Avro)的文件作为数据的存储形式,并在数据写入的同时生成特定的索引,进而可以提供更快的查询性能。hudi本身没有存储和计算的功能。存储是建立在hdfs或者s3上,读写是建立在外部的计算引擎上,如spark,flink等。hudi所处的位置如图
image.png

1.需要用到的程序和jar包,注意版本#

ps:下面的jar包和压缩包都在10.114.10.92节点,位置是/home/yhl/
其中的hudi-flink-bundle_2.11-0.10.1.jar
在百度网盘中有
链接:https://pan.baidu.com/s/1VlNGoa15QxLNb8tevB-FeA
提取码:abcd

2.修改flink配置#

flink-conf.yaml 的 taskmanager.numberOfTaskSlots: 4 。 由1个改为4个
workers 文件增加到4行都写localhost

3.启动flink集群#

image.png
启动flinksql client
让flinksql以普通视图的形式展示结果
image.png
创建hudi表并插入数据
image.png
结果查询
image.png
根据主键更新数据
查询结果
image.png
修改于 2025-03-20 05:26:28
上一页
从科幻走向现实,LLM Agent 做到哪一步了
下一页
2.flink基于hudi的数据湖实践
Built with