spark

大数据

大数据处理技术Spark

发一下我三天肝完的菜菜项目过程，林子雨老师的课大作业。介绍配环境，以及遇到的各种问题，方便自己以后万一转码回来重头学。内容有虚拟机配置，ubuntu安装，创建项目，hadoop部…

1天前

大数据

数据仓库表级血缘应用

数仓血缘应用（一）：表血缘热度文章目录数仓血缘应用（一）：表血缘热度前言一、价值衡量指标——应用层二、血缘节点应用——热度 1、指标透传（应用层——>数仓） 2、指…

1天前

Jave

cannot access class sun.nio.ch.DirectBuffer (in module java.base) because module java.base does not

JDK21 Spark3.5.0 使用JDK21做spark开发启动代码出现 Exception in thread “main” java.lang.I…

1天前

大数据处理中的实时计算：Apache Flink与Spark Streaming对比

1.背景介绍随着互联网和大数据时代的到来，实时数据处理已经成为企业和组织中最关键的需求之一。实时数据处理技术可以帮助企业更快地响应市场变化，提高决策效率，提高业务竞争力。在大数据…

大数据 1天前

【Spark ML系列】Spark Instrumentation OptionalInstrumentation 功能用法示例源码

【Spark ML系列】Spark Instrumentation OptionalInstrumentation 功能用法示例源码详解点击这里看全文文章目录原理功能和使用 …

大数据 1天前

大数据

Spark的生态系统概览：Spark SQL、Spark Streaming

Apache Spark是一个强大的分布式计算框架，用于大规模数据处理。Spark的生态系统包括多个组件，其中两个重要的组件是Spark SQL和Spark Streaming。本…

1天前

大数据

[Spark、hadoop]Spark Streaming整合kafka实战

目录一．KafkaUtils.createDstream方式二．KafkaUtils.createDirectStream方式温习 Kafka是由Apache软件基金会开发…

1天前

[spark] 将dataframe中的数据插入到mysql

文章目录分区写入 `foreachPartition` 直接写入 `write.jdbc()` 有没有插入成功在插入时记录行数 `累加器` 分区写入 foreachPartit…

大数据 1天前

Spark（复习）

一、Linux基本操作 1、文件、目录操作（1）创建目录、重命名目录、删除目录 mkdir tools //在当前目录下创建一个名为tools的目录 m…

大数据 1天前

Spark之Adaptive Query Execution

文章目录 Adaptive Query Execution Coalescing Post Shuffle Partitions Spliting skewed shuffle p…

大数据 1天前

大数据

spark：RDD编程（Python版）

RDD运行原理 RDD设计背景许多选代目前的MapReduce框架都是把中间结果写入到稳定存储 (比如磁盘)中带来了大量的数据复制、磁盘IO和序列化开销 RDD就是为了满足这种需…

1天前

Spark与HadoopMapReduce

1.背景介绍 Spark与HadoopMapReduce是大数据处理领域中两种非常重要的技术。Spark是一个快速、灵活的大数据处理框架，可以处理批处理和流处理任务。HadoopM…

大数据 1天前

hive的引擎mapreduce、tez和spark对比

hive引擎简介 Hive 的执行引擎包括以下几种： Hive on MapReduce Hive 最早使用的执行引擎是基于 Hadoop MapReduce 的。它将 Hive …

大数据 1天前

大数据

【Spark精讲】一文讲透SparkSQL聚合过程以及UDAF开发

SparkSQL聚合过程这里的 Partial 方式表示聚合函数的模式，能够支持预先局部聚合，这方面的内容会在下一节详细介绍。对应实例中的聚合语句，因为 count 函数支持 …

1天前

spark读sqlserver出现的异常

前言 Spark通过JDBC读取数据之前很早写过一篇博客，本以为所有通过jdbc读取的方式都一样，谁知道这次读sqlserver的时候竟然出现的很多异常，这里把异常的问题进行记录。…

大数据 1天前