hive
-
Hive导入数据的五种方法
在Hive中建表成功之后,就会在HDFS上创建一个与之对应的文件夹,且文件夹名字就是表名; 文件夹父路径是由参数hive.metastore.warehouse.d…
-
sqllineage解析sql列级血缘并提交到datahub
目录 版本信息 操作记录 安装datahub v0.10.0 datahub 快速部署 元数据摄取 通过sqlline获取指定sql文件中HiveSQL的字段级血缘关系,并将结果提…
-
hive插入动态分区数据时,return code 2报错解决
目录 一、完整报错 二、原因 2.1、动态分区问题 2.2、语句占用内存问题 三、其他 一、完整报错 Error while pro…
-
HIVE SQL regexp
《平凡的世界》评分不错,《巴黎圣母院》改变成的电影不错,还有<>也蛮好看。 如何使用regexp_extract®exp_replace函数将以上文本中所…
-
大数据Hive–函数
文章目录 一、函数 1.1 函数简介 1.2 单行函数 1.2.1 算术运算函数 1.2.2 数值函数 1.2.3 字符串函数 1.2.4 日期函数 1.2.5 流程控制函数 1….
-
改变hive的端口8020到9000。(SemanticException Unable to determine if hdfs://node1:8020/user/hive/warehouse)
文章目录 问题:SemanticException Unable to determine if hdfs://node1:8020/user/hive/warehouse/t_s…
-
【hive】列转行—collect
文章目录 一、collect_set()/collect_list() 二、实际运用 把同一分组的不同行的数据聚合成一个行 用下标可以随机取某一个 聚合后的中的值用‘|’分隔开 使…
-
hive报错——FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.StatsTask
今天向分区表插入数据 insert into table——–的时候 执行完报错了:FAILED: Execution Error, retur…
-
配置Hive使用Spark执行引擎
配置Hive使用Spark执行引擎 Hive引擎 概述 兼容问题 安装Spark Spark配置 Hive配置 HDFS上传Spark的jar包 执行测试 速度对比 Hive引擎 …
-
Hive中hash函数及md5函数
目录 hive中的hash函数 实例 hive 中md5函数 hive中sha2函数 补充 hive中的hash函数 Hive中的HASH函数用于将任意长度的字符串或二进制数据映射…
-
数据湖Iceberg介绍和使用(集成Hive、SparkSQL、FlinkSQL)
文章目录 简介 概述 作用 特性 数据存储、计算引擎插件化 实时流批一体 数据表演化(Table Evolution) 模式演化(Schema Evolution) 分区演化(Pa…
-
SQL:数据去重的三种方法
1、使用distinct去重 distinct用来查询不重复记录的条数,用count(distinct id)来返回不重复字段的条数。用法注意: distinct【查询字段】,必须…
-
Hive讲课笔记:内部表与外部表
文章目录 零、学习目标 一、导言 二、内部表 1.1 什么是内部表 1.1.1 内部表的定义 1.1.2 内部表的关键特性 1.2 创建与操作内部表 1.2.1 创建并查看数据库 …
-
HiveSQL基础命令02
目录 一、分区表 1.新建分区表 2.向分区表插入数据 1.静态分区 2.动态分区 3.创建多级分区 二、分桶表 1.新建原表 2.建立分桶表并按照sid排序 3.向分桶表插入数据…
-
2024.1.15 Spark 阶段原理,八股,面试题
目录 1. 简述什么是Spark? 2. 简述Spark的四大特点 3. 简述Spark比Mapreduce执行效率高的原因 4. 简述Spark on Yarn的两种部署模式的区…
