大数据
-
基于Python大数据的京东产品评论的情感分析的研究,包括snwonlp情感分析和LDA主题分析
研究背景 网上购物已经成为大众生活的重要组成部分。人们在电商平台上浏览商品和购物,产生了海量的用户行为数据,其中用户对商品的评论数据对商家具有重要的意义。利用好这些碎片化、非结构化…
-
Unable to retrieve version information from Elasticsearch nodes.
Elasticsearch nodes. connect ECONNREFUSED问题 [error][elasticsearch-service] Unable to retri…
-
39、Flink 的CDC 格式:maxwell部署以及示例
Flink 系列文章 一、Flink 专栏 Flink 专栏系统介绍某一知识点,并辅以具体的示例进行说明。 1、Flink 部署系列 本部分介绍Flink的部署、配置相关基础内容。…
-
理解 Spark 写入 API 的数据处理能力
这张图解释了 Apache Spark DataFrame 写入 API 的流程。它始于对写入数据的 API 调用,支持的格式包括 CSV、JSON 或 Parquet。流程根据选…
-
元数据管理在数据仓库中的实践应用
一、什么是数据仓库的元数据管理? 1、什么是元数据? 元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data about data)。 抽象的描述:一组用于…
-
Kibana导出csv数据
适用版本 ElasticSearch-6.8.0 Kibana-6.8.0 导出CSV文件配置 kibana配置文件 添加以下配置 xpack.reporting.csv.maxS…
-
Spark与Hive的集成与互操作
Apache Spark和Apache Hive是大数据领域中两个非常流行的工具,用于数据处理和分析。Spark提供了强大的分布式计算能力,而Hive是一个用于查询和管理大规模数据…
-
Spark—SparkSQL介绍
一、SparkSQL介绍 1、Shark Shark是基于Spark计算框架之上且兼容Hive语法的SQL执行引擎,由于底层的计算采用了Spark,性能比MapReduce的Hiv…
-
【postgresql 基础入门】数据库服务的管理,启动、停止、状态查看、配置加载、重启都在这里
数据库服务管理 专栏内容: postgresql内核源码分析 手写数据库toadb 并发编程 开源贡献: toadb开源库 个人主页:我的主页 管理社区:开源数据库 座右铭:天…
-
hadoop与hdfs
第2章 大数据处理架构Hadoop 简介 Hadoop的核心是分布式文件系统HDFS(Hadoop Distributed File System)和MapReduce Hadoo…
-
Doris 入门:高级特性(四)
目录 一、表结构变更 二、Rollup 三、增大内存 四、修改超时时间 五、Broadcast/Shuffle Join 六、数据模型 七、索引 八、物化视图 九、动态分区 十、数…
-
TDengine Kafka Connector将 Kafka 中指定 topic 的数据(批量或实时)同步到 TDengine
教程放在这里:TDengine Java Connector,官方文档已经写的很清晰了,不再赘述。 这里记录一下踩坑: 1.报错 java.lang.UnsatisfiedLink…
-
223页10万字大数据中心总体架构及数据仓库顶层设计解决方案WORD
提供智慧城市、智能制造、数据治理、信息化等领域的系统框架、总体架构、数据流架构资料,包括数据治理、信息化、精益生产改善知识。 本文文档69页,因篇幅限制,以下仅展示部分资料,需要完…
-
【2024年更新】大数据专业毕设必过选题推荐
文章目录 大数据专业毕设必过选题 大数据毕设项目主要流程: 一、Hive数据仓库相关选题 题目推荐: 二、Hadoop/MapReduce相关选题 题目推荐: 三、Spark相关选…
-
CDH整合Flink(CDH6.3.0+Flink1.12.1)
CDH整合Flink(CDH6.3.0+Flink1.12.1) 1 准备环境 Linux版本:CENTOS 7.7.1908 在自己的虚拟机上提前准备好,版本建议高点 JAVA版…
