数据仓库 | 第11页

大数据

Hive简介

Apache Hive简介什么是分布式SQL? 通过分布式的方式，执行SQL语句，获取分析结果。 Hive的优势通过java或者python直接操作MapReduce，也可以做…

1天前

大数据

Hive导入数据的五种方法

在Hive中建表成功之后，就会在HDFS上创建一个与之对应的文件夹，且文件夹名字就是表名；文件夹父路径是由参数hive.metastore.warehouse.d…

1天前

hive插入动态分区数据时，return code 2报错解决

目录一、完整报错二、原因 2.1、动态分区问题 2.2、语句占用内存问题三、其他一、完整报错 Error while pro…

大数据 1天前

数据仓库-日期维度表的设计与实现

时间维度表的制作 1 需求背景在大数据分析模块中，我们需要从不同的维度分析主题表，包括常用的公用维度：时间维，地区维度，教育信息维…以及各种各样的业务维度：员工维度，部门维度…，…

大数据 1天前

大数据

数据挖掘(7.1)–数据仓库

目录引言一、数据库 1.简介 2.数据库管理系统(DBMS) 二、数据仓库数据仓库特征数据仓库作用数据仓库和DBMS对比分离数据仓库和数据库引言数据仓库的历史可以追…

1天前

大数据

【hive】列转行—collect

文章目录一、collect_set()/collect_list() 二、实际运用把同一分组的不同行的数据聚合成一个行用下标可以随机取某一个聚合后的中的值用‘|’分隔开使…

1天前

大数据

hive报错——FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.StatsTask

今天向分区表插入数据 insert into table——–的时候执行完报错了:FAILED: Execution Error, retur…

1天前

大数据

5、DataX（DataX简介、DataX架构原理、DataX部署、使用、同步MySQL数据到HDFS、同步HDFS数据到MySQL）

1、DataX简介 1.1 DataX概述 DataX 是阿里巴巴开源的一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、O…

1天前

大数据

现在的湖仓一体像是个伪命题

文章目录开放的计算引擎SPL助力湖仓一体开放且完善的计算能力多数据源混合计算文件计算支持完善的计算能力直接访问源数据数据整理后的高性能计算 SPL资料从一体机、超融…

1天前

大数据

数据湖Iceberg介绍和使用(集成Hive、SparkSQL、FlinkSQL)

文章目录简介概述作用特性数据存储、计算引擎插件化实时流批一体数据表演化（Table Evolution）模式演化（Schema Evolution）分区演化（Pa…

1天前

数据库

MySQL 图书管理系统

1.需求分析 1.1项目需求分析简介 1.1.1信息需求分析 (1) 图书信息：包括书籍编号，书籍名称，出版社，作者，库存量，出版日期，价格，库存，剩余量，类别等； (2) 借阅证…

1天前

大数据

数据仓库入门介绍框架（附带完整项目实战）

一、诞生背景企业数据分析需要：各个部门自己建立独立的数据抽取系统，导致数据不一致概述数据仓库是一个面向主题的、集成、非易失的且随时间变化的数据集合主要用于组织积累的历史数据…

1天前

大数据

详解数据仓库和数据集市：ODS、DW、DWD、DWM、DWS、ADS

一、数据流向二、应用示例三、何为数仓DW Data warehouse（可简写为DW或者DWH）数据仓库，是在数据库已经大量存在的情况下，它是一整套包括了etl、调度、建模在内…

1天前

数据库

云数据仓库实践：AWS Redshift在大数据储存分析上的落地经验分享

🏆作者简介，黑夜开发者，CSDN领军人物，全栈领域优质创作者✌，CSDN博客专家，阿里云社区专家博主，2023年6月CSDN上海赛道top4。 🏆数…

1天前

大数据

数据库实战经验分享（全量表，增量表，拉链表，流水表，快照表）

前言当人们一提到全量表，增量表，拉链表，流水表，快照表等这些概念时，大家第一反应想到的就是传统数据仓库的使用。那么本文将从数据仓库介入，简单介绍一下openGauss设计中的全…

1天前