数据仓库
-
Hive简介
Apache Hive简介 什么是分布式SQL? 通过分布式的方式,执行SQL语句,获取分析结果。 Hive的优势 通过java或者python直接操作MapReduce,也可以做…
-
Hive导入数据的五种方法
在Hive中建表成功之后,就会在HDFS上创建一个与之对应的文件夹,且文件夹名字就是表名; 文件夹父路径是由参数hive.metastore.warehouse.d…
-
hive插入动态分区数据时,return code 2报错解决
目录 一、完整报错 二、原因 2.1、动态分区问题 2.2、语句占用内存问题 三、其他 一、完整报错 Error while pro…
-
数据仓库-日期维度表的设计与实现
时间维度表的制作 1 需求背景 在大数据分析模块中,我们需要从不同的维度分析主题表,包括常用的公用维度:时间维,地区维度,教育信息维…以及各种各样的业务维度:员工维度,部门维度…,…
-
数据挖掘(7.1)–数据仓库
目录 引言 一、数据库 1.简介 2.数据库管理系统(DBMS) 二、数据仓库 数据仓库特征 数据仓库作用 数据仓库和DBMS对比 分离数据仓库和数据库 引言 数据仓库的历史可以追…
-
【hive】列转行—collect
文章目录 一、collect_set()/collect_list() 二、实际运用 把同一分组的不同行的数据聚合成一个行 用下标可以随机取某一个 聚合后的中的值用‘|’分隔开 使…
-
hive报错——FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.StatsTask
今天向分区表插入数据 insert into table——–的时候 执行完报错了:FAILED: Execution Error, retur…
-
5、DataX(DataX简介、DataX架构原理、DataX部署、使用、同步MySQL数据到HDFS、同步HDFS数据到MySQL)
1、DataX简介 1.1 DataX概述 DataX 是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、O…
-
现在的湖仓一体像是个伪命题
文章目录 开放的计算引擎SPL助力湖仓一体 开放且完善的计算能力 多数据源混合计算 文件计算支持 完善的计算能力 直接访问源数据 数据整理后的高性能计算 SPL资料 从一体机、超融…
-
数据湖Iceberg介绍和使用(集成Hive、SparkSQL、FlinkSQL)
文章目录 简介 概述 作用 特性 数据存储、计算引擎插件化 实时流批一体 数据表演化(Table Evolution) 模式演化(Schema Evolution) 分区演化(Pa…
-
MySQL 图书管理系统
1.需求分析 1.1项目需求分析简介 1.1.1信息需求分析 (1) 图书信息:包括书籍编号,书籍名称,出版社,作者,库存量,出版日期,价格,库存,剩余量,类别等; (2) 借阅证…
-
数据仓库入门介绍框架(附带完整项目实战)
一、诞生背景 企业数据分析需要:各个部门自己建立独立的数据抽取系统,导致数据不一致 概述 数据仓库是一个面向主题的、集成、非易失的且随时间变化的数据集合 主要用于组织积累的历史数据…
-
详解数据仓库和数据集市:ODS、DW、DWD、DWM、DWS、ADS
一、数据流向 二、应用示例 三、何为数仓DW Data warehouse(可简写为DW或者DWH)数据仓库,是在数据库已经大量存在的情况下,它是一整套包括了etl、调度、建模在内…
-
云数据仓库实践:AWS Redshift在大数据储存分析上的落地经验分享
🏆作者简介,黑夜开发者,CSDN领军人物,全栈领域优质创作者✌,CSDN博客专家,阿里云社区专家博主,2023年6月CSDN上海赛道top4。 🏆数…
-
数据库实战经验分享(全量表,增量表,拉链表,流水表,快照表)
前言 当人们一提到全量表,增量表,拉链表,流水表,快照表等这些概念时,大家第一反应想到的就是传统数据仓库的使用。 那么本文将从数据仓库介入,简单介绍一下openGauss设计中的全…
