分布式
-
hadoop期末复习
参考:尚硅谷-B站-hadoop3.x教程 尚硅谷大数据Hadoop教程,hadoop3.x搭建到集群调优,百万播放_哔哩哔哩_bilibili 1.集群部署规划主要修改那几个配置…
-
实现高效的大数据处理:Apache Hadoop的核心原理
1.背景介绍 大数据处理是当今信息技术中最热门的话题之一。随着互联网的发展,数据的产生和增长速度已经超越了我们的预期。根据IDC的预测,全球数据量将达到44ZB(Zettabyte…
-
2024.1.3 Spark架构角色和提交任务流程
目录 一 . Yarn的角色回顾 二、Spark提交任务流程 1、Spark On Standalone 2. Spark on Yarn 三. Spark 比MapRe…
-
调式源码解决 seata 报错 can not get cluster name 问题
最近在使用Spring Cloud整合分布式事务seata,项目启动之后,控制台一直报错: can not get cluster name in registry config …
-
深入理解 Spark(四)Spark 内存管理模型
Spark 中的内存管理和资源管理模型 Executor 进程作为一个 JVM 进程,其内存管理建立在 JVM 的内存管理之上,整个大致包含两种方式:堆内内存和堆外内存。 一个 E…
-
Hadoop简介:开启大数据处理之门
随着信息技术的飞速发展,数据呈现爆炸式增长,传统的数据处理方式已无法满足日益增长的数据需求。在此背景下,Hadoop作为一种分布式系统基础架构,应运而生,为大数据处理打开了新的大门…
-
Kafka(三)【Broker 存储】
目录 前言 Kafka Broker 1、工作流程 1.1、Zookeeper 存储的 Kafka 信息 1.2、Kafka Broker 的总体工作流程 1.3、Broke 重要…
-
SpringCloud之Nacos配置中心解读
目录 基本介绍 概述 动态配置服务 多配置格式编辑器 微服务拉取配置流程 Data ID @RefreshScope 配置共享的优先级 实战使用 简单的共享配置 开发环境的共享…
-
Spark Core进阶知识
小知识: 大数据开发人员/数据分析人员,必须要对自己统计的指标结果负责!!! 结果数据的核对方式: 1- 在离线文件中直接ctrl+F搜索关键内容核对(不常用) 2- 一般原始数据…
-
分布式事务的Eureka与Eureka策略
1.背景介绍 在分布式系统中,事务是一种用于保证数据一致性和完整性的机制。当多个分布式节点需要协同工作时,就需要使用分布式事务来确保数据的一致性。Eureka是一种分布式事务管理策…
-
HBase 的实时数据处理与分析: 利用 HBase 实现高效的数据处理
1.背景介绍 HBase 是一个分布式、可扩展、高性能的列式存储系统,基于 Google 的 Bigtable 设计。它是 Apache Hadoop 生态系统的一部分,可以与 H…
-
创建表:HBase表的定义与创建
1.背景介绍 在大数据时代,HBase作为一种高性能、可扩展的列式存储系统,已经成为了许多企业和组织的首选。本文将深入探讨HBase表的定义与创建,揭示其核心概念、算法原理、最佳实…
-
数据标准与数据仓库:实现企业级数据管理
1.背景介绍 数据标准和数据仓库是企业级数据管理中的两个关键概念。数据标准确定了数据的格式、结构和语义,使得不同来源的数据能够相互兼容和整合。数据仓库则是一个用于存储、管理和分析企…
-
Flink原理之分布式分发
Flink集群架构 Flink集群是由一个JobManager和多个TaskManager组成的:Client用来提交任务给JobManager,JobManager分发任务给Ta…
-
分布式一致性算法Paxos、Raft 及 Zookeeper ZAB
国科大学习生活(期末复习资料、课程大作业解析、学习文档等): 文章专栏(点击跳转) 大数据开发学习文档(分布式文件系统的实现,大数据生态圈学习文档等): 文章专栏(点击跳转) 文档…
