数据仓库
-
postgresql 内核源码分析 btree索引的增删查代码基本原理流程分析,索引膨胀的原因在这里
B-Tree索引代码流程分析 专栏内容: postgresql内核源码分析 手写数据库toadb 并发编程 开源贡献: toadb开源库 个人主页:我的主页 管理社区:开源数据…
-
Hive 数仓及数仓设计方案
数仓(Data Warehouse) 数据仓库存在的意义在于对企业的所有数据进行汇总,为企业各个部门提供一个统一、规范的出口。做数仓就是做方案,是用数据治理企业的方案。 数据仓库的…
-
【hive】hive数据类型及数据类型转换的注意事项
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 一、hive数据类型 1、数值型数据类型 2、字符型数据类型 3、日期型数据类型 4、其他数据类型 5、…
-
HIVE窗口函数
什么是窗口函数 hive中开窗函数通过over关键字声明;窗口函数,准确地说,函数在窗口中的应用;比如sum函数不仅可在group by后聚合,在可在窗口中应用; hive中gro…
-
Hive创建外部表详细步骤
① 在hive中执行HDFS命令:创建/data目录 hive命令终端输入: hive> dfs -mkdir -p /data; 或者在linux命令终端输入: hdfs …
-
Python量化投资——金融数据最佳实践: 使用qteasy+tushare搭建本地金融数据仓库并定期批量更新【附源码】
用`qteasy`+`tushare`实现金融数据本地化存储及访问 目的 什么是`qteasy` 什么是`tushare` 为什么要本地化 使用qteasy创建本地数据仓库 qte…
-
【文末送书】AI时代数据的重要性
欢迎关注博主 Mindtechnist 或加入【智能科技社区】一起学习和分享Linux、C、C++、Python、Matlab,机器人运动控制、多机器人协作,智能优化算法,滤波估计…
-
【SQL应知应会】表分区(二)• Oracle版
欢迎来到爱书不爱输的程序猿的博客, 本博客致力于知识分享,与更多的人进行学习交流 本文收录于SQL应知应会专栏,本专栏主要用于记录对于数据库的一些学习,有基础也有进阶,有MySQL…
-
Hive 优化总结
Hive优化 本质:HDFS + MapReduce 问题原因: 倾斜: 分区:有的分区没有数据,有的分区数据堆积。(若按天分区,每一天数据差别大就叫倾斜。) group by:有…
-
Hive SQL 中ARRAY或MAP类型数据处理:lateral view explode()/posexplode()——行转列函数
前言:在对表数据进行批量处理过程中,常常碰上某个字段是一个array或者map形式的字段,一列数据的该字段信息同时存在多个值,当我们需要取出该数组中的每一个值实现一一对应关系的时候…
-
Hive的基本SQL操作(DDL篇)
目录 编辑 一、数据库的基本操作 1.1 展示所有数据库 1.2 切换数据库 1.3 创建数据库 1.4 删除数据库 1.5 显示数据库信息 1.5.1 显示数据库信息 1.5….
-
二百零九、Hive——with嵌套语句报错:hadoop.hive.ql.parse.SemanticException: Line 2:5 Ambiguous table alias ‘t2‘
一、目的 在Hive的with嵌套语句时,HQL报错Line 2:5 Ambiguous table alias ‘t2’ 二、报错详情 org.apach…
-
数据仓库【5】:项目实战
数据仓库【5】:项目实战 1、项目概述 1.1、项目背景 1.2、复购率计算 2、数据描述 3、架构设计 3.1、数据仓库架构图 4、环境搭建 4.1、环境说明 4.2、集群规划 …
-
Flink读写Doris操作介绍
Flink读写Doris操作介绍 Flink Doris Connector 可以支持通过 Flink 操作(读取、插入、修改、删除) Doris 中存储的数据。可以将 Dor…
-
dataX3.0和datax-web部署实践踩坑记录(windows版)
今年公司需要上一个数据分析项目,在考察了一番(百度一番)之后决定上datax加上datax-web的方式来进行数据调度。 PS:写在前面,主要作用是为了自己以后再次(跳槽)部署而写…
