大数据 | 第4页 | 协通编程

大数据

大数据之使用Spark增量抽取MySQL的数据到Hive数据库（1）

目录前言题目：一、读题分析二、处理过程 1.采用SparkSQL使用max函数找到最大的日期然后转换成时间类型在变成字符串 2.这里提供除了SQL方法外的另一种过滤不满足条…

1天前

大数据

Kafka（三）生产者发送JSON消息+使用统一序列化器+提升吞吐量

文章目录生产者发送思路使用统一序列化器配置生产者参数提升吞吐量发送消息关闭生产者结语示例源码仓库生产者发送思路如何确保消息格式正确的前提下最终一定能发送到Kaf…

1天前

大数据

CentOS7安装教程—-图文详解

创建虚拟机创建新的虚拟机—>选择自定义（高级）（C）—>下一步默认下一步选择稍后安装操作系统（s） —> 下一步选择l…

1天前

大数据

虚拟机集群部署hadoop

搭建hadoop虚拟机集群一，虚拟机环境准备以三台虚拟机为例，配置如下： 1.台虚拟机：内存2G，处理2 硬盘50G ，如图（电脑配置参考：8核16线程+32运行内存） 2….

1天前

大数据

hadoop报错ERROR: Cannot set priority of namenode process

现象：解决： 1.看Hadoop的日志：查看namenode日志：tail -n 200 hadoop-xinjie-namenode-VM-0-9-centos.log （文…

1天前

大数据

【ElasticSearch8.X】学习笔记（一）

【ElasticSearch8.X】学习笔记一、8.x与7.x的对比二、安装elk8.x 2.1、下载 2.2、集群规划 2.3、安装 2.4、配置环境 2.5、修改配置文件 …

1天前

大数据

Hive-SQL语法大全

Hive SQL 语法大全基于语法描述说明 CREATE DATABASE [IF NOT EXISTS] db_name [LOCATION] ‘path’; SELECT e…

1天前

大数据

【Flink学习】NC工具安装使用 Linux命令 Windows安装

Flink学习工具安装 01-NC安装Windows版前言既往学习没有留痕习惯，用的时候熟练过后就忘记了，重新开始记录学习Flink之路，Fighting！一、NC工具简介…

1天前

Spark的大数据处理与分析案例

1.背景介绍 1.背景介绍 Apache Spark是一个开源的大数据处理框架，它可以处理批量数据和流式数据，并提供了一个易用的编程模型。Spark的核心组件是Spark Stre…

大数据 1天前

大数据

1.2 Hadoop概述

小肥柴的Hadoop之旅 1.2 Hadoop概述目录 1.2 Hadoop概述 1.2.1 回归问题 1.2.2 Google的三篇论文 1.2.3 Hadoop的诞生过程 1…

1天前

HBase的易用性: 如何提高HBase的易用性

1.背景介绍 HBase是一个分布式、可扩展、高性能的列式存储系统，基于Google的Bigtable设计。它是Hadoop生态系统的一部分，可以与HDFS、MapReduce、Z…

大数据 1天前

数据架构的大数据处理：Hadoop 与 Spark 的结合

1.背景介绍大数据处理是现代数据科学和工程的核心技术，它涉及到处理海量、高速、多源、不确定性和不可靠性的数据。随着互联网、人工智能、物联网等领域的快速发展，大数据处理的重要性日益…

大数据 1天前

大数据

mac上搭建 hadoop 伪集群

1. hadoop介绍 Hadoop是Apache基金会开发的一个开源的分布式计算平台，主要用于处理和分析大数据。Hadoop的核心设计理念是将计算任务分布到多个节点上，以实现高度…

1天前

大数据

【大数据存储与处理】实验一 HBase 的基本操作

一、实验目的： 1. 掌握 Hbase 创建数据库表及删除数据库表 2. 掌握 Hbase 对数据库表数据的增、删、改、查。二、实验内容： 1、题目 0：进入 hbase sh…

1天前

大数据

Hadoop(02) Hadoop-3.3.6 集群的配置教程

当使用Hadoop的分布式模式进行部署和运行时，通常使用分布式文件系统HDFS进行存储。在这种情况下，HDFS的名称节点（NameNode）和数据节点（DataNode）位于不同的…

1天前