数据仓库 | 协通编程

Hive之set参数大全-20

指定在执行大表半连接操作时的最小表大小，以决定是否启用半连接操作的优化在 Hive 中，hive.tez.bigtable.minsize.semijoin.reduction …

大数据 1天前

HIVE核心优化方案

目录 1.数据采样 2.join优化 3.Hive索引 4.数据倾斜 1.HIVE核心优化方案–数据采样分桶表分文件的, 在创建表的时候, 指定分桶字段, 并设置分…

大数据 1天前

hive：insert into/overwrite插入分区详解

需求描述：最近在做数据清洗的工作，从ods层到dwd层对数据进行标准化。有多张表需要汇入主题表，因为表中的字段比较多，况且也不统一，需要从指定字段拿数据，并且清洗，最后汇入主题表。…

大数据 1天前

大数据

在Docker中使用Dockerfile实现ISO文件转化为完整版Centos镜像，并搭建集群数据仓库

在Docker中使用Dockerfile实现ISO文件转化为完整版Centos镜像，并搭建集群数据仓库在上一篇文章中，我们提到了如何使用Docker官方版本的centos7搭建容…

1天前

【美团】交易系统平台-数据仓库研发工程师

更新时间：2024/01/28｜工作地点：北京市｜事业群：到家事业群｜工作经验：3年部门介绍到家研发平台秉承“零售+科技”战略，致力于推动餐饮、零售需求侧和供给侧数字化升级，构…

大数据 1天前

Hive 排名函数ROW

目录 1. ROW_NUMBER() 2. RANK() 3. DENSE_RANK() 4. NTILE() 5. CUME_DIST() 6. PERCENT_RANK() 1…

大数据 1天前

2024.1.30 Spark SQL的高级用法

目录 1、如何快速生成多行的序列 2、如何快速生成表数据 3.开窗函数排序函数平分函数聚合函数向上向下窗口函数 1、如何快速生成多行的序列 — 需求: 请生成一列数据…

大数据 1天前

大数据

数据仓库架构详解

学习目录一、基本概念二、核心框架三、数仓大数据架构详解（流程）一、基本概念数据仓库（Data Warehouse）是一个为数据分析而设计的企业级数据管理系统。数据仓库可集…

1天前

Spark与ApacheHive数据仓库

1.背景介绍 1. 背景介绍 Apache Spark和Apache Hive都是大规模数据处理的开源工具，它们在数据仓库领域具有广泛的应用。Spark是一个快速、高效的大数据处理…

大数据 1天前

大数据

Flink实时数仓同步：拉链表实战详解

一、背景在大数据领域，初始阶段业务数据通常被存储于关系型数据库，如MySQL。然而，为满足日常分析和报表等需求，大数据平台采用多种同步方式，以适应这些业务数据的不同存储需求。这些…

1天前

大数据

银行数据仓库体系实践（5）–数据转换

数据转换作业主要是指在数据仓库内的结构化数据批量加工，对于非结构化数据以及在线查询接口、数据流的开发主要是遵循代码开发规范以及各中间件的开发规范，如使用java来开…

1天前

数据仓库【数据治理】

一、数据治理的概念国际数据管理协会（DAMA）给出的定义：数据治理是对数据资产管理行驶权力和控制的活动集合。数据治理的最终目标是提升数据的价值，…

大数据 1天前

后端

Flink实时数仓同步：快照表实战详解

一、背景在大数据领域，初始阶段业务数据通常被存储于关系型数据库，如MySQL。然而，为满足日常分析和报表等需求，大数据平台采用多种同步方式，以适应这些业务数据的不同存储需求。这些…

1天前

HiveSQL题——用户连续登陆

目录一、连续登陆 1.1 连续登陆3天以上的用户 0 问题描述 1 数据准备 2 数据分析 3 小结 1.2 每个用户历史至今连续登录的最大天数 0 问题描述 1 数据准备 2 …

大数据 1天前

数据库

【hive】- 使用insert into/insert overwrite插入数据到静态分区、动态分区、动静态分区

文章目录前言一、hive分区 hive分区类型 hive分区参数二、数据插入方式静态分区插入数据动态分区插入数据动静混合分区插入数据前言 Hive中支持的分区类型有两…

1天前