大数据
-
大数据之使用Spark增量抽取MySQL的数据到Hive数据库(1)
目录 前言 题目: 一、读题分析 二、处理过程 1.采用SparkSQL使用max函数找到最大的日期然后转换成时间类型在变成字符串 2.这里提供除了SQL方法外的另一种过滤不满足条…
-
Kafka(三)生产者发送JSON消息+使用统一序列化器+提升吞吐量
文章目录 生产者发送思路 使用统一序列化器 配置生产者参数 提升吞吐量 发送消息 关闭生产者 结语 示例源码仓库 生产者发送思路 如何确保消息格式正确的前提下最终一定能发送到Kaf…
-
CentOS7安装教程—-图文详解
创建虚拟机 创建新的虚拟机—>选择自定义(高级)(C)—>下一步 默认下一步 选择稍后安装操作系统(s) —> 下一步 选择l…
-
虚拟机集群部署hadoop
搭建hadoop虚拟机集群 一,虚拟机环境准备 以三台虚拟机为例,配置如下: 1.台虚拟机:内存2G,处理2 硬盘50G ,如图 (电脑配置参考:8核16线程+32运行内存) 2….
-
hadoop报错ERROR: Cannot set priority of namenode process
现象: 解决: 1.看Hadoop的日志: 查看namenode日志:tail -n 200 hadoop-xinjie-namenode-VM-0-9-centos.log (文…
-
【ElasticSearch8.X】学习笔记(一)
【ElasticSearch8.X】学习笔记 一、8.x与7.x的对比 二、安装elk8.x 2.1、下载 2.2、集群规划 2.3、安装 2.4、配置环境 2.5、修改配置文件 …
-
Hive-SQL语法大全
Hive SQL 语法大全 基于语法描述说明 CREATE DATABASE [IF NOT EXISTS] db_name [LOCATION] ‘path’; SELECT e…
-
【Flink学习】NC工具安装使用 Linux命令 Windows安装
Flink学习 工具安装 01-NC安装Windows版 前言 既往学习没有留痕习惯,用的时候熟练过后就忘记了,重新开始记录学习Flink之路,Fighting! 一、NC工具简介…
-
Spark的大数据处理与分析案例
1.背景介绍 1.背景介绍 Apache Spark是一个开源的大数据处理框架,它可以处理批量数据和流式数据,并提供了一个易用的编程模型。Spark的核心组件是Spark Stre…
-
1.2 Hadoop概述
小肥柴的Hadoop之旅 1.2 Hadoop概述 目录 1.2 Hadoop概述 1.2.1 回归问题 1.2.2 Google的三篇论文 1.2.3 Hadoop的诞生过程 1…
-
HBase的易用性: 如何提高HBase的易用性
1.背景介绍 HBase是一个分布式、可扩展、高性能的列式存储系统,基于Google的Bigtable设计。它是Hadoop生态系统的一部分,可以与HDFS、MapReduce、Z…
-
数据架构的大数据处理:Hadoop 与 Spark 的结合
1.背景介绍 大数据处理是现代数据科学和工程的核心技术,它涉及到处理海量、高速、多源、不确定性和不可靠性的数据。随着互联网、人工智能、物联网等领域的快速发展,大数据处理的重要性日益…
-
mac上搭建 hadoop 伪集群
1. hadoop介绍 Hadoop是Apache基金会开发的一个开源的分布式计算平台,主要用于处理和分析大数据。Hadoop的核心设计理念是将计算任务分布到多个节点上,以实现高度…
-
【大数据存储与处理】实验一 HBase 的基本操作
一、实验目的: 1. 掌握 Hbase 创建数据库表及删除数据库表 2. 掌握 Hbase 对数据库表数据的增、删、改、查。 二、实验内容: 1、题目 0:进入 hbase sh…
-
Hadoop(02) Hadoop-3.3.6 集群的配置教程
当使用Hadoop的分布式模式进行部署和运行时,通常使用分布式文件系统HDFS进行存储。在这种情况下,HDFS的名称节点(NameNode)和数据节点(DataNode)位于不同的…
