大数据

  • Flink Operator 使用指南 之 全局配置

    背景 在上一个章节中已经介绍了基本的Flink-Operator安装,但是在实际的数据中台的项目中,用户可能希望看到Flink Operator的运行日志情况,当然这可以通过修改F…

    大数据 1天前
  • 大数据在零售行业的应用与成功案例

    1.背景介绍 大数据是指通过各种计算机技术和软件工具来整合、存储、分析和挖掘的数据集,这些数据通常非结构化且非常庞大。随着互联网和人工智能技术的发展,大数据已经成为许多行业的重要驱…

    大数据 1天前
  • 深入理解Apache Hadoop的分布式存储

    1.背景介绍 分布式存储是大数据处理领域中的一个重要话题。随着数据量的增加,单机存储和计算的能力已经无法满足需求。因此,分布式存储和计算技术变得越来越重要。Apache Hadoo…

    大数据 1天前
  • hadoop期末复习

    参考:尚硅谷-B站-hadoop3.x教程 尚硅谷大数据Hadoop教程,hadoop3.x搭建到集群调优,百万播放_哔哩哔哩_bilibili 1.集群部署规划主要修改那几个配置…

    1天前
  • 26、Flink 的SQL之概览与入门示例

    Flink 系列文章 一、Flink 专栏 Flink 专栏系统介绍某一知识点,并辅以具体的示例进行说明。 1、Flink 部署系列 本部分介绍Flink的部署、配置相关基础内容。…

    大数据 1天前
  • 实现高效的大数据处理:Apache Hadoop的核心原理

    1.背景介绍 大数据处理是当今信息技术中最热门的话题之一。随着互联网的发展,数据的产生和增长速度已经超越了我们的预期。根据IDC的预测,全球数据量将达到44ZB(Zettabyte…

    大数据 1天前
  • Spark—RDD介绍

    文章目录 1.Spark核心编程 2.RDD介绍 2.1.RDD基本原理 2.2 RDD特点 1.弹性 2.分布式 :数据存储在大数据集群的不同节点上 3.数据集 :RDD封装了计…

    1天前
  • 2024.1.3 Spark架构角色和提交任务流程

      目录   一 . Yarn的角色回顾 二、Spark提交任务流程 1、Spark On Standalone 2.  Spark on Yarn 三. Spark 比MapRe…

    1天前
  • 【SQL应知应会】表分区(四)• Oracle版

    欢迎来到爱书不爱输的程序猿的博客, 本博客致力于知识分享,与更多的人进行学习交流 本文收录于SQL应知应会专栏,本专栏主要用于记录对于数据库的一些学习,有基础也有进阶,有MySQL…

    1天前
  • 软考 系统架构设计师系列知识点之大数据(2)

    接前一篇文章:软考 系统架构设计师系列知识点之大数据(1) 所属章节: 第11章. 未来信息综合技术         第6节. 云计算和大数据技术概述 大数据和云计算已成为IT领域…

    大数据 1天前
  • Spark Streaming简介与代码实例

    背景: Spark Streaming是准实时流处理框架,处理响应时间一般以分钟为单位,处理实时数据的延迟时间一般是秒级别的;其他容易混淆的例如Storm实时流处理框架,处理响应是…

    1天前
  • 深入理解 Spark(四)Spark 内存管理模型

    Spark 中的内存管理和资源管理模型 Executor 进程作为一个 JVM 进程,其内存管理建立在 JVM 的内存管理之上,整个大致包含两种方式:堆内内存和堆外内存。 一个 E…

    1天前
  • Hadoop简介:开启大数据处理之门

    随着信息技术的飞速发展,数据呈现爆炸式增长,传统的数据处理方式已无法满足日益增长的数据需求。在此背景下,Hadoop作为一种分布式系统基础架构,应运而生,为大数据处理打开了新的大门…

    大数据 1天前
  • flink双流ioin的大状态如何解决和调优

    Flink 中的双流 ioin 操作(双流连接)通常涉及大状态的处理,这可能导致一些性能和状态管理的挑战。以下是解决和调优 Flink 中双流 ioin 大状态的一些建议: 解决方…

    大数据 1天前
  • HBase1.2.1集群部署,Kafka

     一、安装HBase集群 1.下载HBase Index of /dist/hbase/1.2.1 (apache.org)https://archive.apache.org/d…

    1天前