hive | 第15页 | 协通编程

大数据

Hive导入数据的五种方法

在Hive中建表成功之后，就会在HDFS上创建一个与之对应的文件夹，且文件夹名字就是表名；文件夹父路径是由参数hive.metastore.warehouse.d…

1天前

大数据

sqllineage解析sql列级血缘并提交到datahub

目录版本信息操作记录安装datahub v0.10.0 datahub 快速部署元数据摄取通过sqlline获取指定sql文件中HiveSQL的字段级血缘关系，并将结果提…

1天前

hive插入动态分区数据时，return code 2报错解决

目录一、完整报错二、原因 2.1、动态分区问题 2.2、语句占用内存问题三、其他一、完整报错 Error while pro…

大数据 1天前

HIVE SQL regexp

《平凡的世界》评分不错，《巴黎圣母院》改变成的电影不错，还有<>也蛮好看。如何使用regexp_extract&regexp_replace函数将以上文本中所…

大数据 1天前

大数据

大数据Hive–函数

文章目录一、函数 1.1 函数简介 1.2 单行函数 1.2.1 算术运算函数 1.2.2 数值函数 1.2.3 字符串函数 1.2.4 日期函数 1.2.5 流程控制函数 1….

1天前

大数据

改变hive的端口8020到9000。（SemanticException Unable to determine if hdfs://node1:8020/user/hive/warehouse）

文章目录问题：SemanticException Unable to determine if hdfs://node1:8020/user/hive/warehouse/t_s…

1天前

大数据

【hive】列转行—collect

文章目录一、collect_set()/collect_list() 二、实际运用把同一分组的不同行的数据聚合成一个行用下标可以随机取某一个聚合后的中的值用‘|’分隔开使…

1天前

大数据

hive报错——FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.StatsTask

今天向分区表插入数据 insert into table——–的时候执行完报错了:FAILED: Execution Error, retur…

1天前

大数据

配置Hive使用Spark执行引擎

配置Hive使用Spark执行引擎 Hive引擎概述兼容问题安装Spark Spark配置 Hive配置 HDFS上传Spark的jar包执行测试速度对比 Hive引擎 …

1天前

Hive中hash函数及md5函数

目录 hive中的hash函数实例 hive 中md5函数 hive中sha2函数补充 hive中的hash函数 Hive中的HASH函数用于将任意长度的字符串或二进制数据映射…

大数据 1天前

大数据

数据湖Iceberg介绍和使用(集成Hive、SparkSQL、FlinkSQL)

文章目录简介概述作用特性数据存储、计算引擎插件化实时流批一体数据表演化（Table Evolution）模式演化（Schema Evolution）分区演化（Pa…

1天前

大数据

SQL：数据去重的三种方法

1、使用distinct去重 distinct用来查询不重复记录的条数，用count(distinct id)来返回不重复字段的条数。用法注意： distinct【查询字段】，必须…

1天前

大数据

Hive讲课笔记：内部表与外部表

文章目录零、学习目标一、导言二、内部表 1.1 什么是内部表 1.1.1 内部表的定义 1.1.2 内部表的关键特性 1.2 创建与操作内部表 1.2.1 创建并查看数据库 …

1天前

大数据

HiveSQL基础命令02

目录一、分区表 1.新建分区表 2.向分区表插入数据 1.静态分区 2.动态分区 3.创建多级分区二、分桶表 1.新建原表 2.建立分桶表并按照sid排序 3.向分桶表插入数据…

1天前

2024.1.15 Spark 阶段原理,八股,面试题

目录 1. 简述什么是Spark? 2. 简述Spark的四大特点 3. 简述Spark比Mapreduce执行效率高的原因 4. 简述Spark on Yarn的两种部署模式的区…

大数据 1天前