spark
-
大数据处理技术Spark
发一下我三天肝完的菜菜项目过程,林子雨老师的课大作业。介绍配环境,以及遇到的各种问题,方便自己以后万一转码回来重头学。 内容有虚拟机配置,ubuntu安装,创建项目,hadoop部…
-
数据仓库表级血缘应用
数仓血缘应用(一):表血缘热度 文章目录 数仓血缘应用(一):表血缘热度 前言 一、价值衡量指标——应用层 二、血缘节点应用——热度 1、指标透传(应用层——>数仓) 2、指…
-
cannot access class sun.nio.ch.DirectBuffer (in module java.base) because module java.base does not
JDK21 Spark3.5.0 使用JDK21做spark开发 启动代码出现 Exception in thread “main” java.lang.I…
-
大数据处理中的实时计算:Apache Flink与Spark Streaming对比
1.背景介绍 随着互联网和大数据时代的到来,实时数据处理已经成为企业和组织中最关键的需求之一。实时数据处理技术可以帮助企业更快地响应市场变化,提高决策效率,提高业务竞争力。在大数据…
-
【Spark ML系列】Spark Instrumentation OptionalInstrumentation 功能用法示例源码
【Spark ML系列】Spark Instrumentation OptionalInstrumentation 功能用法示例源码详解点击这里看全文 文章目录 原理 功能和使用 …
-
Spark的生态系统概览:Spark SQL、Spark Streaming
Apache Spark是一个强大的分布式计算框架,用于大规模数据处理。Spark的生态系统包括多个组件,其中两个重要的组件是Spark SQL和Spark Streaming。本…
-
[Spark、hadoop]Spark Streaming整合kafka实战
目录 一.KafkaUtils.createDstream方式 二.KafkaUtils.createDirectStream方式 温习 Kafka是由Apache软件基金会开发…
-
[spark] 将dataframe中的数据插入到mysql
文章目录 分区写入 `foreachPartition` 直接写入 `write.jdbc()` 有没有插入成功 在插入时记录行数 `累加器` 分区写入 foreachPartit…
-
Spark(复习)
一、Linux基本操作 1、文件、目录操作 (1)创建目录、重命名目录、删除目录 mkdir tools //在当前目录下创建一个名为tools的目录 m…
-
Spark之Adaptive Query Execution
文章目录 Adaptive Query Execution Coalescing Post Shuffle Partitions Spliting skewed shuffle p…
-
spark:RDD编程(Python版)
RDD运行原理 RDD设计背景 许多选代目前的MapReduce框架都是把中间结果写入到稳定存储 (比如磁盘)中带来了大量的数据复制、磁盘IO和序列化开销 RDD就是为了满足这种需…
-
Spark与HadoopMapReduce
1.背景介绍 Spark与HadoopMapReduce是大数据处理领域中两种非常重要的技术。Spark是一个快速、灵活的大数据处理框架,可以处理批处理和流处理任务。HadoopM…
-
hive的引擎mapreduce、tez和spark对比
hive引擎简介 Hive 的执行引擎包括以下几种: Hive on MapReduce Hive 最早使用的执行引擎是基于 Hadoop MapReduce 的。它将 Hive …
-
【Spark精讲】一文讲透SparkSQL聚合过程以及UDAF开发
SparkSQL聚合过程 这里的 Partial 方式表示聚合函数的模式,能够支持预先局部聚合,这方面的内容会在下一节详细介绍。 对应实例中的聚合语句,因为 count 函数支持 …
-
spark读sqlserver出现的异常
前言 Spark通过JDBC读取数据之前很早写过一篇博客,本以为所有通过jdbc读取的方式都一样,谁知道这次读sqlserver的时候竟然出现的很多异常,这里把异常的问题进行记录。…
