数据仓库

  • Hive之set参数大全-20

    指定在执行大表半连接操作时的最小表大小,以决定是否启用半连接操作的优化 在 Hive 中,hive.tez.bigtable.minsize.semijoin.reduction …

    大数据 1天前
  • HIVE核心优化方案

    目录 1.数据采样 2.join优化 3.Hive索引 4.数据倾斜 1.HIVE核心优化方案–数据采样 分桶表 分文件的, 在创建表的时候, 指定分桶字段, 并设置分…

    大数据 1天前
  • hive:insert into/overwrite插入分区详解

    需求描述:最近在做数据清洗的工作,从ods层到dwd层对数据进行标准化。有多张表需要汇入主题表,因为表中的字段比较多,况且也不统一,需要从指定字段拿数据,并且清洗,最后汇入主题表。…

    大数据 1天前
  • 在Docker中使用Dockerfile实现ISO文件转化为完整版Centos镜像,并搭建集群数据仓库

    在Docker中使用Dockerfile实现ISO文件转化为完整版Centos镜像,并搭建集群数据仓库 在上一篇文章中,我们提到了如何使用Docker官方版本的centos7搭建容…

    1天前
  • 【美团】交易系统平台-数据仓库研发工程师

    更新时间:2024/01/28|工作地点:北京市|事业群:到家事业群|工作经验:3年 部门介绍 到家研发平台秉承“零售+科技”战略,致力于推动餐饮、零售需求侧和供给侧数字化升级,构…

    大数据 1天前
  • Hive 排名函数ROW

    目录 1. ROW_NUMBER() 2. RANK() 3. DENSE_RANK() 4. NTILE() 5. CUME_DIST() 6. PERCENT_RANK() 1…

    大数据 1天前
  • 2024.1.30 Spark SQL的高级用法

    目录 1、如何快速生成多行的序列 2、如何快速生成表数据 3.开窗函数 排序函数 平分函数  聚合函数  向上向下窗口函数 1、如何快速生成多行的序列 — 需求: 请生成一列数据…

    大数据 1天前
  • 数据仓库架构详解

    学习目录 一、基本概念 二、核心框架 三、数仓大数据架构详解(流程) 一、基本概念 数据仓库(Data Warehouse)是一个为数据分析而设计的企业级数据管理系统。数据仓库可集…

    1天前
  • Spark与ApacheHive数据仓库

    1.背景介绍 1. 背景介绍 Apache Spark和Apache Hive都是大规模数据处理的开源工具,它们在数据仓库领域具有广泛的应用。Spark是一个快速、高效的大数据处理…

    大数据 1天前
  • Flink实时数仓同步:拉链表实战详解

    一、背景 在大数据领域,初始阶段业务数据通常被存储于关系型数据库,如MySQL。然而,为满足日常分析和报表等需求,大数据平台采用多种同步方式,以适应这些业务数据的不同存储需求。这些…

    1天前
  • 银行数据仓库体系实践(5)–数据转换

            数据转换作业主要是指在数据仓库内的结构化数据批量加工,对于非结构化数据以及在线查询接口、数据流的开发主要是遵循代码开发规范以及各中间件的开发规范,如使用java来开…

    1天前
  • 数据仓库【数据治理】

    一、数据治理的概念         国际数据管理协会(DAMA)给出的定义:数据治理是对数据资产管理行驶权力和控制的活动集合。         数据治理的最终目标是提升数据的价值,…

    大数据 1天前
  • Flink实时数仓同步:快照表实战详解

    一、背景 在大数据领域,初始阶段业务数据通常被存储于关系型数据库,如MySQL。然而,为满足日常分析和报表等需求,大数据平台采用多种同步方式,以适应这些业务数据的不同存储需求。这些…

    1天前
  • HiveSQL题——用户连续登陆

    目录 一、连续登陆 1.1 连续登陆3天以上的用户 0 问题描述 1 数据准备 2 数据分析 3 小结 1.2 每个用户历史至今连续登录的最大天数 0 问题描述 1 数据准备 2 …

    大数据 1天前
  • 【hive】- 使用insert into/insert overwrite插入数据到静态分区、动态分区、动静态分区

    文章目录 前言 一、hive分区 hive分区类型 hive分区参数 二、数据插入方式 静态分区插入数据 动态分区插入数据 动静混合分区插入数据 前言 Hive中支持的分区类型有两…

    1天前