大数据
-
大数据在物流与供应链管理中的应用
1.背景介绍 物流与供应链管理是现代企业经营的基石,其中大数据技术在过去的几年里发挥了越来越重要的作用。大数据技术可以帮助企业更有效地挖掘和分析数据,从而提高运输效率、降低成本、提…
-
Hadoop分布式文件系统(HDFS)和Amazon S3的区别是什么?
Hadoop分布式文件系统(HDFS)和Amazon S3(Simple Storage Service)都是用于存储大规模数据的分布式存储系统,但它们有一些关键的区别: 设计目标…
-
【大数据】YARN调度器及调度策略
YARN调度器 YARN负责作业资源调度,在集群中找到满足业务的资源,帮助作业启动任务,管理作业的生命周期。 YARN技术架构 目前,Hadoop作业调度器主要有三种:先进…
-
大数据HCIE成神之路之数据预处理(6)——特征编码
特征编码 1.1 独热编码 1.1.1 实验任务 1.1.1.1 实验背景 1.1.1.2 实验目标 1.1.1.3 实验数据解析 1.1.2 实验思路 1.1.3 实验操作步骤 …
-
大数据StarRocks(一) StarRocks概述
1 StarRocks介绍 StarRocks是新一代极速全场景MPP(Massively Parallel Processing)数据库,它充分吸收关系型OLAP数据库和分布式存…
-
Linux系统下Spark的下载与安装(pyspark运行示例)
最近需要完成数据课程的作业,因此实践了一下如何安装并配置好spark 1、版本要求 由于我想要将hadoop和spark一起使用,因此必须确定好spark的版本 Spark和Had…
-
Git的merge合并代码详解
引言 当我们做好了一个新功能或者修复了一个bug之后怎么把它应用到主分支上呢?这就需要代码进行代码合并了。 这里研究merge合并方式。 一、merge合并代码 我初始化一个git…
-
Flink的部署模式:Local模式、Standalone模式、Flink On Yarn模式
Flink常见的部署模式 Flink部署、执行模式 Flink的部署模式 Flink的执行模式 Local本地模式 下载安装 启动、停止Flink 提交测试任务 停止作业 Stan…
-
Flink 内容分享(七):Flink 读写 HBase 总结
目录 前言 版本 官方文档 Jar包 SQL hbase shell创建Hbase表 Flink 写 Hbase Flink 读 Hbase hbase shell 验证数据 参数…
-
Storm的数据库与ETL集成: 实时数据处理与传统数据仓库协同
1.背景介绍 实时数据处理在大数据时代具有重要意义。传统的数据仓库和ETL技术主要面向批处理,而实时数据处理则需要一种更加高效、实时的处理方式。Apache Storm是一个开源的…
-
Hadoop理论及实践-HDFS读写数据流程(参考Hadoop官网)
NameNode与DataNode回顾 主节点和副本节点通常指的是Hadoop分布式文件系统(HDFS)中的NameNode和DataNode。 NameNode(主节点):Nam…
-
2023年第四届MathorCup大数据挑战赛(B题)|电商零售商家需求预测及库存优化问题|数学建模完整代码+建模过程全解全析
让我们来看看MathorCup的B题! 问题重述 这是一个电商零售商家需求预测及库存优化问题的描述。这个问题涉及到电商平台上的上千个商家,它们将商品放在不同的仓库中,而电商平台需要…
-
Spark: 检查数据倾斜的方法以及解决方法总结
1. 使用Spark UI Spark UI提供了一个可视化的方式来监控和调试Spark作业。你可以通过检查各个Stage的任务执行时间和数据大小来判断是否存在数据倾斜。 任务执行…
-
基于Python和Spark的大数据音乐推荐系统的设计与实现
基于Python和Spark的大数据音乐推荐系统的设计与实现 摘 要 随着科学技术的发展,人们对服务的要求也越来越高。为了能提高管理者的管理效能,现在的音乐推荐管理必须要脱离…
-
大数据爬虫分析基于Python+Django旅游大数据分析系统
欢迎大家点赞、收藏、关注、评论啦 ,由于篇幅有限,只展示了部分核心代码。 文章目录 一项目简介 二、功能 三、系统 四. 总结 一项目简介 基于Python和Django的旅…
