大数据 | 第23页 | 协通编程

大数据

基于Python大数据的京东产品评论的情感分析的研究，包括snwonlp情感分析和LDA主题分析

研究背景网上购物已经成为大众生活的重要组成部分。人们在电商平台上浏览商品和购物，产生了海量的用户行为数据，其中用户对商品的评论数据对商家具有重要的意义。利用好这些碎片化、非结构化…

1天前

Unable to retrieve version information from Elasticsearch nodes.

Elasticsearch nodes. connect ECONNREFUSED问题 [error][elasticsearch-service] Unable to retri…

大数据 1天前

大数据

39、Flink 的CDC 格式：maxwell部署以及示例

Flink 系列文章一、Flink 专栏 Flink 专栏系统介绍某一知识点，并辅以具体的示例进行说明。 1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。…

1天前

大数据

理解 Spark 写入 API 的数据处理能力

这张图解释了 Apache Spark DataFrame 写入 API 的流程。它始于对写入数据的 API 调用，支持的格式包括 CSV、JSON 或 Parquet。流程根据选…

1天前

大数据

元数据管理在数据仓库中的实践应用

一、什么是数据仓库的元数据管理？ 1、什么是元数据？元数据（Metadata），又称中介数据、中继数据，为描述数据的数据（data about data）。抽象的描述：一组用于…

1天前

大数据

Kibana导出csv数据

适用版本 ElasticSearch-6.8.0 Kibana-6.8.0 导出CSV文件配置 kibana配置文件添加以下配置 xpack.reporting.csv.maxS…

1天前

大数据

Spark与Hive的集成与互操作

Apache Spark和Apache Hive是大数据领域中两个非常流行的工具，用于数据处理和分析。Spark提供了强大的分布式计算能力，而Hive是一个用于查询和管理大规模数据…

1天前

大数据

Spark—SparkSQL介绍

一、SparkSQL介绍 1、Shark Shark是基于Spark计算框架之上且兼容Hive语法的SQL执行引擎，由于底层的计算采用了Spark，性能比MapReduce的Hiv…

1天前

数据库

【postgresql 基础入门】数据库服务的管理，启动、停止、状态查看、配置加载、重启都在这里

数据库服务管理专栏内容： postgresql内核源码分析手写数据库toadb 并发编程开源贡献： toadb开源库个人主页：我的主页管理社区：开源数据库座右铭：天…

1天前

大数据

hadoop与hdfs

第2章大数据处理架构Hadoop 简介 Hadoop的核心是分布式文件系统HDFS（Hadoop Distributed File System）和MapReduce Hadoo…

1天前

Doris 入门：高级特性（四）

目录一、表结构变更二、Rollup 三、增大内存四、修改超时时间五、Broadcast/Shuffle Join 六、数据模型七、索引八、物化视图九、动态分区十、数…

大数据 1天前

大数据

TDengine Kafka Connector将 Kafka 中指定 topic 的数据（批量或实时）同步到 TDengine

教程放在这里：TDengine Java Connector，官方文档已经写的很清晰了，不再赘述。这里记录一下踩坑： 1.报错 java.lang.UnsatisfiedLink…

1天前

223页10万字大数据中心总体架构及数据仓库顶层设计解决方案WORD

提供智慧城市、智能制造、数据治理、信息化等领域的系统框架、总体架构、数据流架构资料，包括数据治理、信息化、精益生产改善知识。本文文档69页，因篇幅限制，以下仅展示部分资料，需要完…

大数据 1天前

【2024年更新】大数据专业毕设必过选题推荐

文章目录大数据专业毕设必过选题大数据毕设项目主要流程：一、Hive数据仓库相关选题题目推荐：二、Hadoop/MapReduce相关选题题目推荐：三、Spark相关选…

大数据 1天前

大数据

CDH整合Flink(CDH6.3.0+Flink1.12.1)

CDH整合Flink(CDH6.3.0+Flink1.12.1) 1 准备环境 Linux版本：CENTOS 7.7.1908 在自己的虚拟机上提前准备好，版本建议高点 JAVA版…

1天前