数据仓库
-
Hive学习(13)lag和lead函数取偏移量
hive里面lag函数 在数据处理和分析中,窗口函数是一种重要的技术,用于在数据集中执行聚合和分析操作。Hive作为一种大数据处理框架,也提供了窗口函数的支持。在Hive中,Lag…
-
hiveSql解析DolphinScheduler调度系统7位crontab表达式
背景 先说下我们数仓大致的数据链路。 各个业务系统的数据库 -> hive -> doris -> 报表/邮件/系统 hive里ods层几乎所有的数据都依赖于从业…
-
数据流的存储与管理:构建高效的数据仓库
1.背景介绍 数据仓库是现代企业和组织中不可或缺的一部分,它们需要有效地存储、管理和分析大量的数据。随着数据的增长和复杂性,构建高效的数据仓库变得越来越重要。在这篇文章中,我们将讨…
-
Hive中处理中文乱码问题的解决方法
中文乱码是在处理大数据时经常遇到的问题之一,尤其是在使用Hive进行数据分析和查询时。本文将介绍一些解决Hive中文乱码问题的方法,并提供相应的源代码示例。 设置Hive的字符集编…
-
Hive insert插入数据与with子查询
1. insert into 与 insert overwrite区别 insert into 与 insert overwrite 都可以向hive表中插入数据,但是insert…
-
HashData湖仓一体方案:方案概览与Hive数据同步
随着云计算、大数据、AI的发展和普及,各行各业的业务场景日益复杂,数据呈现出大规模、多样性的特点,企业对数据仓库的需求也进一步拓展至对多元化数据实时处理的场景。 数据湖是多元数据存…
-
离线数据仓库-关于增量和全量
数据同步策略 数据仓库同步策略概述 一、数据的全量同步 二、数据的增量同步 三、数据同步策略的选择 数据仓库同步策略概述 应用系统所产生的业务数据是数据仓库的重要数据来源,我们需要…
-
超详细【入门精讲】数据仓库原理&实战 一步一步搭建数据仓库 内附相应实验代码和镜像数据和脚本
文章对应的博客园链接:点击这里 文章目录 0. B站相关课程链接 和 搭建数据仓库资源及脚本下载 食用指南:建议先把博客整体看一遍之后再进行操作 文章最后有常见问题及解决方法 1….
-
向量数据库Weaviate使用教程(安装+使用)
Weaviate-use 由于官网的教程写得比较复杂,所以笔者写一个简单的例子,注意:本教程只作简单使用(这个例子只是举个例子,并未追求好的检索效果)。github地址 可以看ju…
-
Hive 动态分区以及分区以及中文分区字段
Hive 动态分区 hive 提供了一个动态分区功能,其可以基于查询参数的位置去推断分区的名称,从而建立分区。 1、配置参数 1.1 主要配置参数 以下为 Hive 动态分区涉及的…
-
超详细【入门精讲】数据仓库原理&实战 一步一步搭建数据仓库 内附相应实验代码和镜像数据和脚本
文章对应的博客园链接:点击这里 文章目录 0. B站相关课程链接 和 搭建数据仓库资源及脚本下载 食用指南:建议先把博客整体看一遍之后再进行操作 文章最后有常见问题及解决方法 1….
-
hive中collect
在Hive中,collect_list是一个聚合函数,用于将同一分组内的值收集到一个列表中。它将每个分组内的数值或表达式的结果收集到一个数组中,并返回一个包含这些值的数组作为结果。…
-
超详细【入门精讲】数据仓库原理&实战 一步一步搭建数据仓库 内附相应实验代码和镜像数据和脚本
文章对应的博客园链接:点击这里 文章目录 0. B站相关课程链接 和 搭建数据仓库资源及脚本下载 食用指南:建议先把博客整体看一遍之后再进行操作 文章最后有常见问题及解决方法 1….
-
超详细【入门精讲】数据仓库原理&实战 一步一步搭建数据仓库 内附相应实验代码和镜像数据和脚本
文章对应的博客园链接:点击这里 文章目录 0. B站相关课程链接 和 搭建数据仓库资源及脚本下载 食用指南:建议先把博客整体看一遍之后再进行操作 文章最后有常见问题及解决方法 1….
-
数据仓库模型设计:从架构到实践的全方位指南
前言 随着数字化时代的快速发展,数据已经成为企业和组织的核心资产。数据仓库作为组织中管理和分析数据的关键平台,其建设规范对于确保数据的准确性和完整性至关重要。 一、…
