大数据
-
Flink应用部署与集群管理
1.背景介绍 Flink是一个流处理框架,它可以处理大规模的实时数据流,并提供高吞吐量、低延迟和强一致性的数据处理能力。Flink应用的部署和集群管理是其核心部分,因为它们决定了F…
-
Hadoop 请求数据长度 Requested Data length 超过配置的最大值
一、问题 现象 Spark 任务速度变慢,也不失败。 DataNode 内存足够 CPU 负载不高 GC 时间也不长。 查看 DataNode 日志,发现有些日志出现很多 Nett…
-
【大数据】Flink SQL 语法篇(一):CREATE
《Flink SQL 语法篇》系列,共包含以下 10 篇文章: Flink SQL 语法篇(一):CREATE Flink SQL 语法篇(二):WITH、SELECT &…
-
大数据StarRocks(二) StarRocks集群部署
一、生产机器资源评估 1.梳理数据量,包括每天增量数据接入和全量数据接入 2.数据存储时间长度(1个月/3个月/半年/1年/三年等) 3.报表的SQL查询数量,SQL查询占用资源的…
-
【时区】Flink JDBC 和CDC时间字段时区 测试及时间基准
关联文章: 各种时间类型和timezone关系浅析 一、测试目的和值 1. 测试一般的数据库不含time zone的类型的时区。 mysql timestamp(3) 类型 pos…
-
Git 常用命令详解及如何在IDEA中操作
文章目录 前言 发现宝藏 一、初识Git 1.Git概述 2. Git的功能 3. Git运行图示 二、Git下载安装 三、Git 代码托管服务 1.常用的 Git 代码托管服务 …
-
HBase的基本概念与数据模型
1.背景介绍 HBase是一个分布式、可扩展、高性能的列式存储系统,基于Google的Bigtable论文。它是Hadoop生态系统的一部分,可以与HDFS、MapReduce、Z…
-
Hadoop:学习HDFS,看完这篇就够了!
HDFS(Hadoop Distributed File System)是Apache Hadoop生态系统中的分布式文件系统,用于存储和处理大规模数据集。由于其具有高容错性、高…
-
【4-5章】Spark编程基础(Python版)
课程资源:(林子雨)Spark编程基础(Python版)_哔哩哔哩_bilibili 第4章 RDD编程(21节) Spark生态系统: Spark Core:底层核心(RDD…
-
Flink问题解决及性能调优-【Flink rocksDB读写state大对象导致背压问题调优】
RocksDB是Flink中用于持久化状态的默认后端,它提供了高性能和可靠的状态存储。然而,当处理大型状态并频繁读写时,可能会导致背压问题,因为RocksDB需要从磁盘读取和写入数…
-
【大数据】Flink 架构(三):事件时间处理
《Flink 架构》系列(已完结),共包含以下 6 篇文章: Flink 架构(一):系统架构 Flink 架构(二):数据传输 Flink 架构(三):事件时间处理 Flink …
-
深入了解HBase:数据模型与查询语言
1.背景介绍 作为一位世界级人工智能专家,程序员,软件架构师,CTO,世界顶级技术畅销书作者,计算机图灵奖获得者,计算机领域大师,我们将深入了解HBase的数据模型与查询语言,揭示…
-
拿什么样的大数据来“喂饱”狂飙的大模型
大数据产业创新服务媒体 ——聚焦数据 · 改变商业 当前,大模型的发展处于一场充满无限可能的大变革前夜,而作为核心要素的大数据也被赋予了全新的意涵。大模型技术的出现对大数据而言意味…
-
大数据毕设分享 基于协同过滤的电影推荐系统
文章目录 0 简介 1 设计概要 2 课题背景和目的 3 协同过滤算法原理 3.1 基于用户的协同过滤推荐算法实现原理 3.1.1 步骤1 3.1.2 步骤2 3.1.3 步骤3 …
-
HBase的数据类型与索引
1.背景介绍 HBase是一个分布式、可扩展、高性能的列式存储系统,基于Google的Bigtable设计。它是Hadoop生态系统的一部分,可以与HDFS、MapReduce、Z…
