数据仓库 | 第9页 | 协通编程

postgresql 内核源码分析 btree索引的增删查代码基本原理流程分析，索引膨胀的原因在这里

B-Tree索引代码流程分析专栏内容： postgresql内核源码分析手写数据库toadb 并发编程开源贡献： toadb开源库个人主页：我的主页管理社区：开源数据…

数据库 1天前

Hive 数仓及数仓设计方案

数仓(Data Warehouse) 数据仓库存在的意义在于对企业的所有数据进行汇总，为企业各个部门提供一个统一、规范的出口。做数仓就是做方案，是用数据治理企业的方案。数据仓库的…

大数据 1天前

大数据

【hive】hive数据类型及数据类型转换的注意事项

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录一、hive数据类型 1、数值型数据类型 2、字符型数据类型 3、日期型数据类型 4、其他数据类型 5、…

1天前

大数据

HIVE窗口函数

什么是窗口函数 hive中开窗函数通过over关键字声明；窗口函数，准确地说，函数在窗口中的应用；比如sum函数不仅可在group by后聚合，在可在窗口中应用； hive中gro…

1天前

大数据

Hive创建外部表详细步骤

① 在hive中执行HDFS命令：创建/data目录 hive命令终端输入： hive> dfs -mkdir -p /data; 或者在linux命令终端输入： hdfs …

1天前

大数据

Python量化投资——金融数据最佳实践: 使用qteasy+tushare搭建本地金融数据仓库并定期批量更新【附源码】

用`qteasy`+`tushare`实现金融数据本地化存储及访问目的什么是`qteasy` 什么是`tushare` 为什么要本地化使用qteasy创建本地数据仓库 qte…

1天前

人工智能

【文末送书】AI时代数据的重要性

欢迎关注博主 Mindtechnist 或加入【智能科技社区】一起学习和分享Linux、C、C++、Python、Matlab，机器人运动控制、多机器人协作，智能优化算法，滤波估计…

1天前

数据库

【SQL应知应会】表分区（二）• Oracle版

欢迎来到爱书不爱输的程序猿的博客, 本博客致力于知识分享，与更多的人进行学习交流本文收录于SQL应知应会专栏,本专栏主要用于记录对于数据库的一些学习，有基础也有进阶，有MySQL…

1天前

大数据

Hive 优化总结

Hive优化本质：HDFS + MapReduce 问题原因：倾斜：分区：有的分区没有数据，有的分区数据堆积。(若按天分区，每一天数据差别大就叫倾斜。) group by：有…

1天前

大数据

Hive SQL 中ARRAY或MAP类型数据处理：lateral view explode()/posexplode()——行转列函数

前言：在对表数据进行批量处理过程中，常常碰上某个字段是一个array或者map形式的字段，一列数据的该字段信息同时存在多个值，当我们需要取出该数组中的每一个值实现一一对应关系的时候…

1天前

大数据

Hive的基本SQL操作（DDL篇）

目录编辑一、数据库的基本操作 1.1 展示所有数据库 1.2 切换数据库 1.3 创建数据库 1.4 删除数据库 1.5 显示数据库信息 1.5.1 显示数据库信息 1.5….

1天前

大数据

二百零九、Hive——with嵌套语句报错：hadoop.hive.ql.parse.SemanticException: Line 2:5 Ambiguous table alias ‘t2‘

一、目的在Hive的with嵌套语句时，HQL报错Line 2:5 Ambiguous table alias ‘t2’ 二、报错详情 org.apach…

1天前

大数据

数据仓库【5】：项目实战

数据仓库【5】：项目实战 1、项目概述 1.1、项目背景 1.2、复购率计算 2、数据描述 3、架构设计 3.1、数据仓库架构图 4、环境搭建 4.1、环境说明 4.2、集群规划 …

1天前

Flink读写Doris操作介绍

Flink读写Doris操作介绍 Flink Doris Connector 可以支持通过 Flink 操作（读取、插入、修改、删除） Doris 中存储的数据。可以将 Dor…

大数据 1天前

前端

dataX3.0和datax-web部署实践踩坑记录（windows版）

今年公司需要上一个数据分析项目，在考察了一番（百度一番）之后决定上datax加上datax-web的方式来进行数据调度。 PS：写在前面，主要作用是为了自己以后再次（跳槽）部署而写…

1天前