数据仓库 | 第10页

【SQL开发实战技巧】系列（二十二）：数仓报表场景☞ 从分析函数效率一定快吗聊一聊结果集分页和隔行抽样实现方式

系列文章目录【SQL开发实战技巧】系列（一）:关于SQL不得不说的那些事【SQL开发实战技巧】系列（二）：简单单表查询【SQL开发实战技巧】系列（三）：SQL排序的那些事【…

大数据 1天前

大数据

我的数据仓库与数据挖掘期末大作业重置版

文章目录我的数据仓库与数据挖掘期末大作业重置版准备工作预设定及导入相对应的库库的导入调整 Jupyter Notebook 的预设定调整 MatPlotLib 和 Pa…

1天前

大数据

大数据存储架构详解：数据仓库、数据集市、数据湖、数据网格、湖仓一体

前言本文隶属于专栏《大数据理论体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见大数据理论体系姊妹篇《分布式数据…

1天前

数据库

数据挖掘(2.4)–数据归约和变换

目录 1.数据归约 1.1数据立方体聚合 1.2特征选择 1.3数据压缩 1.4其他数据归约方法回归分析直方图聚类简单随机采样（SAS） 2.数据离散化 2.1基于信息增益…

1天前

大数据

insert overwrite table：数据仓库和数据分析中的常用技术

一、介绍： INSERT OVERWRITE TABLE 是用于覆盖（即替换）目标表中的数据的操作。它将新的数据写入表中，并删除原有的数据。这个操作适用于非分区表和分区表。二、使…

1天前

大数据

Hive内容分享(十五)：Hive面试题分享

1、下述SQL在Hive、SparkSql两种引擎中，执行流程分别是什么，区别是什么 Hive on Mapreduce hive的特性： hive是基于Hadoop的一个数据仓库…

1天前

大数据

一篇文章教会你搭建Hive分布式集群

目录编辑一、环境描述二、安装mysql 2.1 卸载mysql 2.1.1 列出安装的mysql 2.1.2 卸载mysql 2.1.3 删除mysql文件目录 2.1.3…

1天前

大数据

从零开始了解大数据(七)：总结

系列文章目录从零开始了解大数据(一)：数据分析入门篇-CSDN博客从零开始了解大数据(二)：Hadoop篇-CSDN博客从零开始了解大数据(三)：HDFS分布式文件系统篇-C…

1天前

大数据

Hive用户自定义函数之UDF开发

在进行大数据分析或者开发的时候，难免用到Hive进行数据查询分析，Hive内置很多函数，但是会有一部分需求需要自己开发，这个时候就需要自定义函数了，Hive的自定义函数开发非常方便…

1天前

多标签用户画像分析跑得快的关键在哪里？

用户画像分析需要使用众多标签来描述用户属性，通常有两类标签。一类用户标签的值可能有多个，比如用户学历是中学、大学、研究生、博士等，年龄段是children、juvenile、you…

大数据 1天前

[hive]中的字段的数据类型有哪些

Hive中提供了多种数据类型用于定义表的字段。以下是Hive中常见的数据类型：布尔类型（Boolean）：用于表示true或false。字符串类型（String）：用于表示文本…

大数据 1天前

大数据

阿里云-DataWorks- ODPS SQL开发

1、前言阿里云数据仓库这一系列断断续续也有很久没有更新了，新年新气象，赶紧追上开写。 2、基本概念 1、ODPS： Open Data Processing Service， …

1天前

通俗易懂：什么是拉链表

拉链表是数据仓库中一种重要的模型，相信很多数据工作者都接触过，面试也是经常考察的点。但是很多人第一次接触“拉链表”这个词，难免会产生疑惑：拉链表是什么？目录什么是拉链表每天…

大数据 1天前

hive进行base64 加密解密函数

加密 select base64(cast(‘abcd’ as binary)) YWJjZA== 解密 — 直接解密（结果字段格式为比binary格式） select unba…

大数据 1天前

大数据

【大数据】Doris 构建实时数仓落地方案详解（三）：Doris 实时数仓设计

本系列包含： Doris 构建实时数仓落地方案详解（一）：实时数据仓库概述 Doris 构建实时数仓落地方案详解（二）：Doris 核心功能解读 Doris 构建实时数仓落地方案详…

1天前