hadoop

Java大数据处理与Hadoop

1.背景介绍大数据处理是指处理和分析大量、高速、不断增长的数据，这些数据通常来自不同的来源，如网络、传感器、数据库等。随着互联网和人工智能的发展，大数据处理已经成为现代科学和工程…

大数据 1天前

HIVE核心优化方案

目录 1.数据采样 2.join优化 3.Hive索引 4.数据倾斜 1.HIVE核心优化方案–数据采样分桶表分文件的, 在创建表的时候, 指定分桶字段, 并设置分…

大数据 1天前

hive：insert into/overwrite插入分区详解

需求描述：最近在做数据清洗的工作，从ods层到dwd层对数据进行标准化。有多张表需要汇入主题表，因为表中的字段比较多，况且也不统一，需要从指定字段拿数据，并且清洗，最后汇入主题表。…

大数据 1天前

大数据

Hadoop 请求数据长度 Requested Data length 超过配置的最大值

一、问题现象 Spark 任务速度变慢，也不失败。 DataNode 内存足够 CPU 负载不高 GC 时间也不长。查看 DataNode 日志，发现有些日志出现很多 Nett…

1天前

Hive 排名函数ROW

目录 1. ROW_NUMBER() 2. RANK() 3. DENSE_RANK() 4. NTILE() 5. CUME_DIST() 6. PERCENT_RANK() 1…

大数据 1天前

大数据

【程序员必知必会3】ClickHouse和Hive究竟哪些区别

ClickHouse和Hive究竟哪些区别 ClickHouse和Hive都是用于大数据处理和分析的分布式存储和计算系统，但它们之间存在一些区别：架构：ClickHouse采用列…

1天前

大数据

Hadoop：学习HDFS，看完这篇就够了！

HDFS（Hadoop Distributed File System）是Apache Hadoop生态系统中的分布式文件系统，用于存储和处理大规模数据集。由于其具有高容错性、高…

1天前

大数据

【愚公系列】2024年02月大数据教学课程 019-Hadoop的体系

🏆 作者简介，愚公搬代码 🏆《头衔》：华为云特约编辑，华为云云享专家，华为开发者专家，华为产品云测专家，CSDN博客专家，CSDN商业化专家，阿里云…

1天前

大数据

大数据 – Spark系列《一》- 从Hadoop到Spark：大数据计算引擎的演进

目录 1.1 🐶Hadoop回顾 1.2 🐶spark简介 1.3 🐶Spark特性 1. 🥙通用性 2. &#x1…

1天前

大数据

Hive SQL中的列转行（lateral view与explode）、行转列

一、列转行 1、相关函数列转行：将某列一行中的数据拆分成多行 1）Explode炸裂函数将hive某列一行中复杂的 array 或 map 结构拆分成多行（只能输入array或…

1天前

大数据

2024-01-30（Hadoop

1.什么是大数据狭义（技术思维）：使用分布式技术完成海量数据的处理，得到数据背后蕴含的价值。广义：大数据是数字化时代，信息化时代的基础（技术）支撑，以数据为生活赋能。大数据的…

1天前

大数据

【愚公系列】2024年02月大数据教学课程 017-Hadoop环境配置

🏆 作者简介，愚公搬代码 🏆《头衔》：华为云特约编辑，华为云云享专家，华为开发者专家，华为产品云测专家，CSDN博客专家，CSDN商业化专家，阿里云…

1天前

大数据

【愚公系列】2024年02月大数据教学课程 016-Hadoop预备知识

🏆 作者简介，愚公搬代码 🏆《头衔》：华为云特约编辑，华为云云享专家，华为开发者专家，华为产品云测专家，CSDN博客专家，CSDN商业化专家，阿里云…

1天前

大数据

猿创征文｜Hadoop大数据技术综合实验

综合实验：网站访问日志采集、处理及分析概述监控日志文件日志数据预处理日志数据分析与统计日志数据可视化概述当前互联网应用中，万维网（World Wide Web）应用占…

1天前

Zookeeper与Sqoop集成

1.背景介绍 1. 背景介绍 Apache Zookeeper 和 Apache Sqoop 都是 Apache 基金会提供的开源项目，它们在分布式系统中扮演着不同的角色。Zook…

大数据 1天前