hdfs
-
hadoop与hdfs
第2章 大数据处理架构Hadoop 简介 Hadoop的核心是分布式文件系统HDFS(Hadoop Distributed File System)和MapReduce Hadoo…
-
2024.1.3 Spark架构角色和提交任务流程
目录 一 . Yarn的角色回顾 二、Spark提交任务流程 1、Spark On Standalone 2. Spark on Yarn 三. Spark 比MapRe…
-
Hadoop的基础操作
Hadoop的基础操作 HDFS是Hadoop的分布式文件框架,它的实际目标是能够在普通的硬件上运行,并且能够处理大量的数据。 HDFS采用主从架构,其中由一个NameNode和多…
-
一百六十八、Kettle——用海豚调度器定时调度从Kafka到HDFS的kettle任务脚本(持续更新追踪、持续完善)
一、目的 在实际项目中,从Kafka到HDFS的数据是每天自动生成一个文件,按日期区分。而且Kafka在不断生产数据,因此看看kettle是不是需要时刻运行?能不能按照每日自动生成…
-
hadoop 拒绝连接
[root@node001 ~]# hadoop fs -ls /path/to/directory ls: Call From node001/192.168.137.155 t…
-
一百七十二、Flume——Flume采集Kafka数据写入HDFS中(亲测有效、附截图)
一、目的 作为日志采集工具Flume,它在项目中最常见的就是采集Kafka中的数据然后写入HDFS或者HBase中,这里就是用flume采集Kafka的数据导入HDFS中 二、各工…
-
hadoop集群启动master节点jps后没有namenode解决方案
hadoop集群启动jps后没有namenode 启动集群jps后出现: 1.关闭集群 stop-all.sh 2.切换到hadoop的目录下将logs与tmp文件与内容删除并创建…
-
大数据 – Hadoop系列《三》- HDFS(分布式文件系统)概述
🐶5.1 hdfs的概念 HDFS分布式文件系统,全称为:Hadoop Distributed File System。 它是一个文件系统,用于存储文件,通过目录树…
-
xslx表格文件采集到hdfs流程&hdfs数据 load到hive表
xslx表格文件采集到hdfs 咱们就是说,别的话不多说,直接开始实操 xslx在win系统上,打开后另存为csv文件格式,上传到linux系统中。(注意下编码格式,不然后面就是中…
-
hdfs常用端口号、常用配置文件,集群时间同步
目录 常用端口号 hadoop3.x HDFS NameNode 内部通常端口:8020/9000/9820 HDFS NameNode 对用户的查询端口:9870 历史服务器:1…
-
Hadoop理论及实践-HDFS的Namenode及Datanode(参考Hadoop官网)
HDFS有什么特点,被设计做什么 Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件…
-
【HDFS实战】HDFS上的数据均衡
HDFS上的数据均衡简介 文章目录 HDFS上的数据均衡简介 重新平衡多DN之间的数据 相关命令 重新平衡单DN内磁盘间的数据 相关命令 Plan Execute Query Ca…
-
大数据02-HDFS的使用和基本命令
目录 Hadoop分布式文件系统 HDFS简介 HDFS的体系结构 HDFS的使用和基本命令 学习参考 Hadoop分布式文件系统 HDFS简介 HDFS(Hadoop Dis…
-
大数据开发之电商数仓(hadoop、flume、hive、hdfs、zookeeper、kafka)
第 1 章:数据仓库 1.1 数据仓库概述 1.1.1 数据仓库概念 1、数据仓库概念: 为企业制定决策,提供数据支持的集合。通过对数据仓库中数据的分析,可以帮助企业,改进业务流程…
-
Python语言连接访问Kerberos认证下的HA HDFS
「目的描述」 此篇文章目的是使用Python语言对启用Kerberos、High Availability的HDFS文件系统进行访问,主要介绍KerberosClient、pyar…
