hdfs | 第2页 | 协通编程

大数据

hadoop与hdfs

第2章大数据处理架构Hadoop 简介 Hadoop的核心是分布式文件系统HDFS（Hadoop Distributed File System）和MapReduce Hadoo…

1天前

大数据

2024.1.3 Spark架构角色和提交任务流程

目录一 . Yarn的角色回顾二、Spark提交任务流程 1、Spark On Standalone 2. Spark on Yarn 三. Spark 比MapRe…

1天前

大数据

Hadoop的基础操作

Hadoop的基础操作 HDFS是Hadoop的分布式文件框架，它的实际目标是能够在普通的硬件上运行，并且能够处理大量的数据。 HDFS采用主从架构，其中由一个NameNode和多…

1天前

大数据

一百六十八、Kettle——用海豚调度器定时调度从Kafka到HDFS的kettle任务脚本（持续更新追踪、持续完善）

一、目的在实际项目中，从Kafka到HDFS的数据是每天自动生成一个文件，按日期区分。而且Kafka在不断生产数据，因此看看kettle是不是需要时刻运行？能不能按照每日自动生成…

1天前

hadoop 拒绝连接

[root@node001 ~]# hadoop fs -ls /path/to/directory ls: Call From node001/192.168.137.155 t…

大数据 1天前

大数据

一百七十二、Flume——Flume采集Kafka数据写入HDFS中（亲测有效、附截图）

一、目的作为日志采集工具Flume，它在项目中最常见的就是采集Kafka中的数据然后写入HDFS或者HBase中，这里就是用flume采集Kafka的数据导入HDFS中二、各工…

1天前

大数据

hadoop集群启动master节点jps后没有namenode解决方案

hadoop集群启动jps后没有namenode 启动集群jps后出现： 1.关闭集群 stop-all.sh 2.切换到hadoop的目录下将logs与tmp文件与内容删除并创建…

1天前

大数据

大数据 – Hadoop系列《三》- HDFS（分布式文件系统）概述

🐶5.1 hdfs的概念 HDFS分布式文件系统,全称为:Hadoop Distributed File System。它是一个文件系统，用于存储文件，通过目录树…

1天前

xslx表格文件采集到hdfs流程&hdfs数据 load到hive表

xslx表格文件采集到hdfs 咱们就是说，别的话不多说，直接开始实操 xslx在win系统上，打开后另存为csv文件格式，上传到linux系统中。（注意下编码格式，不然后面就是中…

大数据 1天前

算法结构

hdfs常用端口号、常用配置文件，集群时间同步

目录常用端口号 hadoop3.x HDFS NameNode 内部通常端口：8020/9000/9820 HDFS NameNode 对用户的查询端口：9870 历史服务器：1…

1天前

大数据

Hadoop理论及实践-HDFS的Namenode及Datanode（参考Hadoop官网）

HDFS有什么特点，被设计做什么 Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件…

1天前

大数据

【HDFS实战】HDFS上的数据均衡

HDFS上的数据均衡简介文章目录 HDFS上的数据均衡简介重新平衡多DN之间的数据相关命令重新平衡单DN内磁盘间的数据相关命令 Plan Execute Query Ca…

1天前

大数据

大数据02-HDFS的使用和基本命令

目录 Hadoop分布式文件系统 HDFS简介 HDFS的体系结构 HDFS的使用和基本命令学习参考 Hadoop分布式文件系统 HDFS简介 HDFS(Hadoop Dis…

1天前

算法结构

大数据开发之电商数仓（hadoop、flume、hive、hdfs、zookeeper、kafka）

第 1 章：数据仓库 1.1 数据仓库概述 1.1.1 数据仓库概念 1、数据仓库概念：为企业制定决策，提供数据支持的集合。通过对数据仓库中数据的分析，可以帮助企业，改进业务流程…

1天前

大数据

Python语言连接访问Kerberos认证下的HA HDFS

「目的描述」此篇文章目的是使用Python语言对启用Kerberos、High Availability的HDFS文件系统进行访问，主要介绍KerberosClient、pyar…

1天前