大数据
-
Hadoop之mapreduce参数大全-7
151.设置客户端与 AM 之间的IPC(Inter-Process Communication)连接在发生超时时的最大重试次数 yarn.app.mapreduce.client…
-
37、Flink 的CDC 格式:debezium部署以及mysql示例(2)-Flink 与Debezium 实践
Flink 系列文章 一、Flink 专栏 Flink 专栏系统介绍某一知识点,并辅以具体的示例进行说明。 1、Flink 部署系列 本部分介绍Flink的部署、配置相关基础内容。…
-
简单使用Spark、Scala完成对天气数据的指标统计
目录 一、前言 & 什么是Spark? & 什么是Scala 二、数据准备(数据类型的转换) 三、Spark部分 1、使用Spark完成数据中的“风级”,“风向…
-
第48章:DMP数据平台的分布式存储与Hadoop
1.背景介绍 分布式存储是现代大数据处理的基石,Hadoop作为一种分布式存储和计算框架,已经成为大数据处理领域的标配。DMP数据平台作为一种数据管理平台,需要充分利用Hadoop…
-
MySQL大数据表处理的三种方案,查询效率嘎嘎高
场景 当我们业务数据库表中的数据越来越多,如果你也和我遇到了以下类似场景,那让我们一起来解决这个问题 数据的插入,查询时长较长 后续业务需求的扩展 在表中新增字段 影响较大 表中的…
-
2022年美国大学生数学建模竞赛A题自行车运动员的能量特征解题全过程文档及程序
2022年美国大学生数学建模竞赛 A题 自行车运动员的能量特征 原题再现: 背景 自行车公路赛有多种类型,包括标准赛、团体计时赛和个人计时赛。这些比赛的自行车运动员获胜的机…
-
5、kafka监控工具Kafka-Eagle介绍及使用
Apache Kafka系列文章 1、kafka(2.12-3.0.0)介绍、部署及验证、基准测试 2、java调用kafka api 3、kafka重要概念介紹及示例 4、kaf…
-
2、Flink1.13.5二种部署方式(Standalone、Standalone HA )、四种提交任务方式(前两种及session和per-job)验证详细步骤
Flink 系列文章 一、Flink 专栏 Flink 专栏系统介绍某一知识点,并辅以具体的示例进行说明。 1、Flink 部署系列 本部分介绍Flink的部署、配置相关基础内容。…
-
GHOST使用教程(图解)
1.准备工作 准备一个带PE的U盘,这里我使用的是老毛桃自带ghost 2.选择ghost11.5.1 3.进入Ghost主菜单后可以看到以下 GHOST的主菜单: 1、 Loca…
-
全国职业院校技能大赛-大数据 离线数据处理模块-指标计算
赛题来源2023年全国职业院校技能大赛赛题第1套任务B中指标计算模块 子任务三:指标计算 编写Scala代码,使用Spark计算相关指标。 注:在指标计算中,不考虑订单信息表中or…
-
Quartz:定时任务调度框架
Quartz主要内容 Quartz是一个开源的任务调度框架,负责任务进度管理(就是一个在预先被纳入日程,当时间到达时,负责执行(或者通知)其他软件组件的系统),由OpenSymph…
-
8 分钟看完这 7000+ 字,Flink 时间窗口和时间语义这对好朋友你一定搞得懂!外送窗口计算和水印一并搞懂!!!
目录 一、时间语义 & 时间窗口 1. 前摘: 1.1 Flink的时间和窗口 1.2 什么是时间窗口和时间语义呢? 2. 时间窗口 2.1 举个例子: 2.2 3个实时数…
-
Spark的多语言支持与生态系统
1.背景介绍 Spark是一个开源的大数据处理框架,它可以处理大量数据并提供高性能、可扩展性和易用性。Spark的核心组件是Spark Core,它负责数据存储和计算。Spark还…
-
广州Y行信用卡中心大数据部数据开发岗笔试题
【Linux】广州Y行信用卡中心大数据部数据开发岗笔试题 1.SELECT语句的完整语法比较复杂,但至少包括的部分:(B) A.SELECT INTO B.SELECT FROM …
-
关于flink重新提交任务,重复消费kafka的坑
异常现象1 按照以下方式设置backend目录和checkpoint目录,fsbackend目录有数据,checkpoint目录没数据 env.getCheckpointConfi…
