hive
-
Flink集成Hive之Hive Catalog
流程流程: Flink消费Kafka,逻辑处理后将实时流转换为表视图,利用HiveCataLog创建Hive表,将实时流 表insert进Hive,注意分区时间字段需要为 yyyy…
-
Hive ACID事务表
环境:hive 3.1.0 执行引擎:hive on tez 什么是hive ACID? hive官网对于ACID的介绍: https://cwiki.apache.org/con…
-
Hive调优之小表Join大表
Join: 1、小表join大表 将key相对分散,并且数据量小的表放在join的左边,这样可以有效减少内存溢出错误发生的几率,再进一步可以使用group 让小的维表(1000条以…
-
全国职业院校技能大赛-大数据 离线数据处理模块-指标计算
赛题来源2023年全国职业院校技能大赛赛题第1套任务B中指标计算模块 子任务三:指标计算 编写Scala代码,使用Spark计算相关指标。 注:在指标计算中,不考虑订单信息表中or…
-
hive中array相关函数总结
目录 hive官方函数解释 示例 实战 hive官方函数解释 hive官网函数大全地址: hive官网函数大全地址 Return Type Name Description arr…
-
Hive-concat
concat_ws 是 Hive 中的一个函数,用于在给定分隔符的情况下连接字符串数组或字符串。它的语法如下: concat_ws(separator, const1, const…
-
Hive实战处理(二十三)hive整合phoenix
背景: 业务表使用hbase存储,使用hive整合phoenix,使用sql语句进行数据查询 (如果可以的话使用网关API对外提供服务)统一接口调用,查询上线比较高效。 1、hiv…
-
Hive3.1.3基础
参考B站尚硅谷 目录 什么是Hive Hive架构原理 Hive安装 Hive安装地址 Hive安装部署 安装Hive 启动并使用Hive MySQL安装 安装MySQL 配置My…
-
Hive时间日期函数一文详解+代码实例
目录 前言 一、HiveSQL运行过程 二、Hive时间函数 1.获取当前时间 1.current_date() 2. current_timestamp() 3. unix_ti…
-
Hive08
一 分区表 1 概念: 分区表实际上就是对应一个 HDFS 文件系统上的独立的文件夹,该文件夹下是该分区所 有的数据文件。Hive 中的分区就是分目录,把一个大的数据集根据业务需要…
-
hive sql,年月日 时分秒格式的数据,以15分钟为时间段,找出每一条数据所在时间段的上下界限时间值(15分钟分区)
获取当前的年月日 时分秒 select date_format(current_timestamp(), ‘yyyy-MM-dd HH:mm:ss’) date_format(时间…
-
hive库操作示例
hive库操作示例 1、常规表 创建数据库 CREATE DATABASE mydatabase; 使用数据库 USE mydatabase; 创建表 CREATE TABLE m…
-
【大数据】Hive入门➕安装(尚硅谷大数据Hive 3.1.3教程)
目录 前言 一、Hive入门 1.1. Hive本质 1.2. Hive架构原理 二、Hive3.1.3安装 1. 最小化安装部署(仅适合学习测试) 2. 安装MySQL 3. 卸…
-
Hive的几种排序方式、区别,使用场景
一、几种排序和区别 Hive 支持两种主要的排序方式:ORDER BY 和 SORT BY。除此之外,还有 DISTRIBUTE BY 和 CLUSTER BY 语句,它们也在排…
-
Spark 增量抽取 Mysql To Hive
题目要求: 抽取ds_db01库中customer_inf的增量数据进入Hive的ods库中表customer_inf。根据ods.user_info表中modified_time…
