数据仓库
-
【SQL开发实战技巧】系列(二十二):数仓报表场景☞ 从分析函数效率一定快吗聊一聊结果集分页和隔行抽样实现方式
系列文章目录 【SQL开发实战技巧】系列(一):关于SQL不得不说的那些事 【SQL开发实战技巧】系列(二):简单单表查询 【SQL开发实战技巧】系列(三):SQL排序的那些事 【…
-
我的数据仓库与数据挖掘期末大作业重置版
文章目录 我的数据仓库与数据挖掘期末大作业重置版 准备工作 预设定及导入相对应的库 库的导入 调整 Jupyter Notebook 的预设定 调整 MatPlotLib 和 Pa…
-
大数据存储架构详解:数据仓库、数据集市、数据湖、数据网格、湖仓一体
前言 本文隶属于专栏《大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢! 本专栏目录结构和参考文献请见大数据理论体系 姊妹篇 《分布式数据…
-
数据挖掘(2.4)–数据归约和变换
目录 1.数据归约 1.1数据立方体聚合 1.2特征选择 1.3数据压缩 1.4其他数据归约方法 回归分析 直方图 聚类 简单随机采样(SAS) 2.数据离散化 2.1基于信息增益…
-
insert overwrite table:数据仓库和数据分析中的常用技术
一、介绍: INSERT OVERWRITE TABLE 是用于覆盖(即替换)目标表中的数据的操作。它将新的数据写入表中,并删除原有的数据。这个操作适用于非分区表和分区表。 二、使…
-
Hive内容分享(十五):Hive面试题分享
1、下述SQL在Hive、SparkSql两种引擎中,执行流程分别是什么,区别是什么 Hive on Mapreduce hive的特性: hive是基于Hadoop的一个数据仓库…
-
一篇文章教会你搭建Hive分布式集群
目录 编辑 一、环境描述 二、安装mysql 2.1 卸载mysql 2.1.1 列出安装的mysql 2.1.2 卸载mysql 2.1.3 删除mysql文件目录 2.1.3…
-
从零开始了解大数据(七):总结
系列文章目录 从零开始了解大数据(一):数据分析入门篇-CSDN博客 从零开始了解大数据(二):Hadoop篇-CSDN博客 从零开始了解大数据(三):HDFS分布式文件系统篇-C…
-
Hive用户自定义函数之UDF开发
在进行大数据分析或者开发的时候,难免用到Hive进行数据查询分析,Hive内置很多函数,但是会有一部分需求需要自己开发,这个时候就需要自定义函数了,Hive的自定义函数开发非常方便…
-
多标签用户画像分析跑得快的关键在哪里?
用户画像分析需要使用众多标签来描述用户属性,通常有两类标签。一类用户标签的值可能有多个,比如用户学历是中学、大学、研究生、博士等,年龄段是children、juvenile、you…
-
[hive]中的字段的数据类型有哪些
Hive中提供了多种数据类型用于定义表的字段。以下是Hive中常见的数据类型: 布尔类型(Boolean):用于表示true或false。 字符串类型(String):用于表示文本…
-
阿里云-DataWorks- ODPS SQL开发
1、前言 阿里云 数据仓库这一系列断断续续也有很久没有更新了,新年新气象,赶紧追上开写。 2、基本概念 1、ODPS: Open Data Processing Service, …
-
通俗易懂:什么是拉链表
拉链表是数据仓库中一种重要的模型,相信很多数据工作者都接触过,面试也是经常考察的点。 但是很多人第一次接触“拉链表”这个词,难免会产生疑惑:拉链表是什么? 目录 什么是拉链表 每天…
-
hive进行base64 加密解密函数
加密 select base64(cast(‘abcd’ as binary)) YWJjZA== 解密 — 直接解密(结果字段格式为比binary格式) select unba…
-
【大数据】Doris 构建实时数仓落地方案详解(三):Doris 实时数仓设计
本系列包含: Doris 构建实时数仓落地方案详解(一):实时数据仓库概述 Doris 构建实时数仓落地方案详解(二):Doris 核心功能解读 Doris 构建实时数仓落地方案详…
