大数据 | 第2页 | 协通编程

Flink应用部署与集群管理

1.背景介绍 Flink是一个流处理框架，它可以处理大规模的实时数据流，并提供高吞吐量、低延迟和强一致性的数据处理能力。Flink应用的部署和集群管理是其核心部分，因为它们决定了F…

大数据 1天前

大数据

Hadoop 请求数据长度 Requested Data length 超过配置的最大值

一、问题现象 Spark 任务速度变慢，也不失败。 DataNode 内存足够 CPU 负载不高 GC 时间也不长。查看 DataNode 日志，发现有些日志出现很多 Nett…

1天前

【大数据】Flink SQL 语法篇（一）：CREATE

《Flink SQL 语法篇》系列，共包含以下 10 篇文章： Flink SQL 语法篇（一）：CREATE Flink SQL 语法篇（二）：WITH、SELECT &…

大数据 1天前

大数据

大数据StarRocks(二) StarRocks集群部署

一、生产机器资源评估 1.梳理数据量，包括每天增量数据接入和全量数据接入 2.数据存储时间长度（1个月/3个月/半年/1年/三年等） 3.报表的SQL查询数量，SQL查询占用资源的…

1天前

大数据

【时区】Flink JDBC 和CDC时间字段时区测试及时间基准

关联文章: 各种时间类型和timezone关系浅析一、测试目的和值 1. 测试一般的数据库不含time zone的类型的时区。 mysql timestamp(3) 类型 pos…

1天前

编程语言

Git 常用命令详解及如何在IDEA中操作

文章目录前言发现宝藏一、初识Git 1.Git概述 2. Git的功能 3. Git运行图示二、Git下载安装三、Git 代码托管服务 1.常用的 Git 代码托管服务 …

1天前

HBase的基本概念与数据模型

1.背景介绍 HBase是一个分布式、可扩展、高性能的列式存储系统，基于Google的Bigtable论文。它是Hadoop生态系统的一部分，可以与HDFS、MapReduce、Z…

大数据 1天前

大数据

Hadoop：学习HDFS，看完这篇就够了！

HDFS（Hadoop Distributed File System）是Apache Hadoop生态系统中的分布式文件系统，用于存储和处理大规模数据集。由于其具有高容错性、高…

1天前

大数据

【4-5章】Spark编程基础(Python版)

课程资源：（林子雨）Spark编程基础(Python版)_哔哩哔哩_bilibili 第4章 RDD编程（21节） Spark生态系统： Spark Core：底层核心（RDD…

1天前

大数据

Flink问题解决及性能调优-【Flink rocksDB读写state大对象导致背压问题调优】

RocksDB是Flink中用于持久化状态的默认后端，它提供了高性能和可靠的状态存储。然而，当处理大型状态并频繁读写时，可能会导致背压问题，因为RocksDB需要从磁盘读取和写入数…

1天前

大数据

【大数据】Flink 架构（三）：事件时间处理

《Flink 架构》系列（已完结），共包含以下 6 篇文章： Flink 架构（一）：系统架构 Flink 架构（二）：数据传输 Flink 架构（三）：事件时间处理 Flink …

1天前

深入了解HBase：数据模型与查询语言

1.背景介绍作为一位世界级人工智能专家,程序员,软件架构师,CTO,世界顶级技术畅销书作者,计算机图灵奖获得者,计算机领域大师,我们将深入了解HBase的数据模型与查询语言,揭示…

大数据 1天前

大数据

拿什么样的大数据来“喂饱”狂飙的大模型

大数据产业创新服务媒体 ——聚焦数据 · 改变商业当前，大模型的发展处于一场充满无限可能的大变革前夜，而作为核心要素的大数据也被赋予了全新的意涵。大模型技术的出现对大数据而言意味…

1天前

大数据

大数据毕设分享基于协同过滤的电影推荐系统

文章目录 0 简介 1 设计概要 2 课题背景和目的 3 协同过滤算法原理 3.1 基于用户的协同过滤推荐算法实现原理 3.1.1 步骤1 3.1.2 步骤2 3.1.3 步骤3 …

1天前

HBase的数据类型与索引

1.背景介绍 HBase是一个分布式、可扩展、高性能的列式存储系统，基于Google的Bigtable设计。它是Hadoop生态系统的一部分，可以与HDFS、MapReduce、Z…

大数据 1天前