大数据
-
Flink Operator 使用指南 之 全局配置
背景 在上一个章节中已经介绍了基本的Flink-Operator安装,但是在实际的数据中台的项目中,用户可能希望看到Flink Operator的运行日志情况,当然这可以通过修改F…
-
大数据在零售行业的应用与成功案例
1.背景介绍 大数据是指通过各种计算机技术和软件工具来整合、存储、分析和挖掘的数据集,这些数据通常非结构化且非常庞大。随着互联网和人工智能技术的发展,大数据已经成为许多行业的重要驱…
-
深入理解Apache Hadoop的分布式存储
1.背景介绍 分布式存储是大数据处理领域中的一个重要话题。随着数据量的增加,单机存储和计算的能力已经无法满足需求。因此,分布式存储和计算技术变得越来越重要。Apache Hadoo…
-
hadoop期末复习
参考:尚硅谷-B站-hadoop3.x教程 尚硅谷大数据Hadoop教程,hadoop3.x搭建到集群调优,百万播放_哔哩哔哩_bilibili 1.集群部署规划主要修改那几个配置…
-
26、Flink 的SQL之概览与入门示例
Flink 系列文章 一、Flink 专栏 Flink 专栏系统介绍某一知识点,并辅以具体的示例进行说明。 1、Flink 部署系列 本部分介绍Flink的部署、配置相关基础内容。…
-
实现高效的大数据处理:Apache Hadoop的核心原理
1.背景介绍 大数据处理是当今信息技术中最热门的话题之一。随着互联网的发展,数据的产生和增长速度已经超越了我们的预期。根据IDC的预测,全球数据量将达到44ZB(Zettabyte…
-
Spark—RDD介绍
文章目录 1.Spark核心编程 2.RDD介绍 2.1.RDD基本原理 2.2 RDD特点 1.弹性 2.分布式 :数据存储在大数据集群的不同节点上 3.数据集 :RDD封装了计…
-
2024.1.3 Spark架构角色和提交任务流程
目录 一 . Yarn的角色回顾 二、Spark提交任务流程 1、Spark On Standalone 2. Spark on Yarn 三. Spark 比MapRe…
-
【SQL应知应会】表分区(四)• Oracle版
欢迎来到爱书不爱输的程序猿的博客, 本博客致力于知识分享,与更多的人进行学习交流 本文收录于SQL应知应会专栏,本专栏主要用于记录对于数据库的一些学习,有基础也有进阶,有MySQL…
-
软考 系统架构设计师系列知识点之大数据(2)
接前一篇文章:软考 系统架构设计师系列知识点之大数据(1) 所属章节: 第11章. 未来信息综合技术 第6节. 云计算和大数据技术概述 大数据和云计算已成为IT领域…
-
Spark Streaming简介与代码实例
背景: Spark Streaming是准实时流处理框架,处理响应时间一般以分钟为单位,处理实时数据的延迟时间一般是秒级别的;其他容易混淆的例如Storm实时流处理框架,处理响应是…
-
深入理解 Spark(四)Spark 内存管理模型
Spark 中的内存管理和资源管理模型 Executor 进程作为一个 JVM 进程,其内存管理建立在 JVM 的内存管理之上,整个大致包含两种方式:堆内内存和堆外内存。 一个 E…
-
Hadoop简介:开启大数据处理之门
随着信息技术的飞速发展,数据呈现爆炸式增长,传统的数据处理方式已无法满足日益增长的数据需求。在此背景下,Hadoop作为一种分布式系统基础架构,应运而生,为大数据处理打开了新的大门…
-
flink双流ioin的大状态如何解决和调优
Flink 中的双流 ioin 操作(双流连接)通常涉及大状态的处理,这可能导致一些性能和状态管理的挑战。以下是解决和调优 Flink 中双流 ioin 大状态的一些建议: 解决方…
-
HBase1.2.1集群部署,Kafka
一、安装HBase集群 1.下载HBase Index of /dist/hbase/1.2.1 (apache.org)https://archive.apache.org/d…
