hadoop
-
Java大数据处理与Hadoop
1.背景介绍 大数据处理是指处理和分析大量、高速、不断增长的数据,这些数据通常来自不同的来源,如网络、传感器、数据库等。随着互联网和人工智能的发展,大数据处理已经成为现代科学和工程…
-
HIVE核心优化方案
目录 1.数据采样 2.join优化 3.Hive索引 4.数据倾斜 1.HIVE核心优化方案–数据采样 分桶表 分文件的, 在创建表的时候, 指定分桶字段, 并设置分…
-
hive:insert into/overwrite插入分区详解
需求描述:最近在做数据清洗的工作,从ods层到dwd层对数据进行标准化。有多张表需要汇入主题表,因为表中的字段比较多,况且也不统一,需要从指定字段拿数据,并且清洗,最后汇入主题表。…
-
Hadoop 请求数据长度 Requested Data length 超过配置的最大值
一、问题 现象 Spark 任务速度变慢,也不失败。 DataNode 内存足够 CPU 负载不高 GC 时间也不长。 查看 DataNode 日志,发现有些日志出现很多 Nett…
-
Hive 排名函数ROW
目录 1. ROW_NUMBER() 2. RANK() 3. DENSE_RANK() 4. NTILE() 5. CUME_DIST() 6. PERCENT_RANK() 1…
-
【程序员必知必会3】ClickHouse和Hive究竟哪些区别
ClickHouse和Hive究竟哪些区别 ClickHouse和Hive都是用于大数据处理和分析的分布式存储和计算系统,但它们之间存在一些区别: 架构:ClickHouse采用列…
-
Hadoop:学习HDFS,看完这篇就够了!
HDFS(Hadoop Distributed File System)是Apache Hadoop生态系统中的分布式文件系统,用于存储和处理大规模数据集。由于其具有高容错性、高…
-
【愚公系列】2024年02月 大数据教学课程 019-Hadoop的体系
🏆 作者简介,愚公搬代码 🏆《头衔》:华为云特约编辑,华为云云享专家,华为开发者专家,华为产品云测专家,CSDN博客专家,CSDN商业化专家,阿里云…
-
大数据 – Spark系列《一》- 从Hadoop到Spark:大数据计算引擎的演进
目录 1.1 🐶Hadoop回顾 1.2 🐶spark简介 1.3 🐶Spark特性 1. 🥙通用性 2. …
-
Hive SQL中的列转行(lateral view与explode)、行转列
一、列转行 1、相关函数 列转行:将某列一行中的数据拆分成多行 1)Explode炸裂函数 将hive某列一行中复杂的 array 或 map 结构拆分成多行(只能输入array或…
-
2024-01-30(Hadoop
1.什么是大数据 狭义(技术思维):使用分布式技术完成海量数据的处理,得到数据背后蕴含的价值。 广义:大数据是数字化时代,信息化时代的基础(技术)支撑,以数据为生活赋能。 大数据的…
-
【愚公系列】2024年02月 大数据教学课程 017-Hadoop环境配置
🏆 作者简介,愚公搬代码 🏆《头衔》:华为云特约编辑,华为云云享专家,华为开发者专家,华为产品云测专家,CSDN博客专家,CSDN商业化专家,阿里云…
-
【愚公系列】2024年02月 大数据教学课程 016-Hadoop预备知识
🏆 作者简介,愚公搬代码 🏆《头衔》:华为云特约编辑,华为云云享专家,华为开发者专家,华为产品云测专家,CSDN博客专家,CSDN商业化专家,阿里云…
-
猿创征文|Hadoop大数据技术综合实验
综合实验:网站访问日志采集、处理及分析 概述 监控日志文件 日志数据预处理 日志数据分析与统计 日志数据可视化 概述 当前互联网应用中,万维网(World Wide Web)应用占…
-
Zookeeper与Sqoop集成
1.背景介绍 1. 背景介绍 Apache Zookeeper 和 Apache Sqoop 都是 Apache 基金会提供的开源项目,它们在分布式系统中扮演着不同的角色。Zook…
