数据仓库
-
Hive实战:分科汇总求月考平均分
文章目录 一、实战概述 二、提出任务 三、完成任务 (一)准备数据 1、在虚拟机上创建文本文件 2、上传文件到HDFS指定目录 (二)实现步骤 1、启动Hive Metastore…
-
ETL工具 – Kettle 介绍及基本使用
一、Kettle 介绍 在介绍 Kettle 前先了解下什么是 ETL,ETL是 Extract-Transform-Load 的缩写,即数据 抽取、转换、装载 的过程,对于企业或…
-
Quick Bi经验总结
Quick Bi经验总结 Quick Bi简介 Quick BI是阿里云的产品,是一个专为云上用户(数据量特别大,借助阿里云进行数据托管)量身打造的新一代智能BI服务平台,当然…
-
数据优化的数据湖:构建高效的数据仓库解决方案
1.背景介绍 数据湖和数据仓库都是用于存储和管理大规模数据的解决方案,但它们之间存在一些关键的区别。数据湖是一种无结构化或半结构化的数据存储,允许数据在存储过程中保持原始格式,而数…
-
Hive On Spark 概述、安装配置、计算引擎更换、应用、异常解决
文章目录 Hadoop 安装 Hive 安装 Hive On Spark 与 Spark On Hive 区别 Hive On Spark Spark On Hive 部署 Hiv…
-
【大数据】Doris 构建实时数仓落地方案详解(二):Doris 核心功能解读
本系列包含: Doris 构建实时数仓落地方案详解(一):实时数据仓库概述 Doris 构建实时数仓落地方案详解(二):Doris 核心功能解读 Doris 构建实时数仓落地方案详…
-
【SQL开发实战技巧】系列(二十):数据仓库中时间类型操作(进阶)获取季度开始结束时间以及如何统计非连续性时间的数据
系列文章目录 【SQL开发实战技巧】系列(一):关于SQL不得不说的那些事 【SQL开发实战技巧】系列(二):简单单表查询 【SQL开发实战技巧】系列(三):SQL排序的那些事 【…
-
没错,列式存储非常牛。但是,Ta还可以更高效
很多数据仓库产品都采用了列式存储。如果数据表的总列数很多而计算涉及的列很少,采用列存就只读取需要的列即可,能够减少硬盘访问量,提高性能。 特别是数据量非常大时,硬盘扫描和读取的时间…
-
Hive权限管理
Hive权限管理 1、hive授权模型介绍 (1)Storage Based Authorization in the Metastore Server 基于存储的授权 ̵…
