大数据 | 第5页 | 协通编程

大数据

大数据实验报告英汉对照版（Hadoop安装与配置）

1.Experimental purpose: 实验目的 The main purpose of this experiment is to verify Hadoop&#8217…

1天前

大数据

【Spark实践6】特征转换FeatureTransformers实践Scala版–补充算子

本节介绍了用于处理特征的算法，大致可以分为以下几组：提取（Extraction）：从“原始”数据中提取特征。转换（Transformation）：缩放、转换或修改特征。选择（…

1天前

HBase中的数据版本控制与回滚策略

1.背景介绍 1. 背景介绍 HBase是一个分布式、可扩展、高性能的列式存储系统，基于Google的Bigtable设计。它广泛应用于大规模数据存储和处理，如日志记录、实时数据分…

大数据 1天前

数据库

ElasticSearch查询语句用法

查询用法包括：match、match_phrase、multi_match、query_string、term 1.match 1.1 不同字段权重如果需要为不同字段设置不同权重…

1天前

数据库

Elasticsearch基础篇(七)：分片大小修改和路由分配规则

Elasticsearch基础篇(七)：分片大小修改和路由分配规则 1. 分片 1.1 主分片（Primary Shard） 1.2 副本分片（Replica Shard） 1.3…

1天前

Flink与ApacheKafka的流处理

1.背景介绍 1. 背景介绍 Apache Flink 和 Apache Kafka 是两个非常重要的开源项目，它们在大规模数据流处理和分布式系统中发挥着重要作用。Flink 是一…

大数据 1天前

数据库

Elasticsearch索引库和文档的相关操作

前言：最近一直在复习Elasticsearch相关的知识，公司搜索相关的技术用到了这个，用公司电脑配了环境，借鉴网上的课程进行了总结。希望能够加深自己的印象以及帮助到其他的小伙伴儿…

1天前

数据库

Elasticsearch：是时候离开了！ – 在 Elasticsearch 文档上使用 TTL

作者：来自 Elastic David Pilato 想象一下，圣诞老人必须向世界上所有的孩子们分发礼物。他有很多工作要做，他需要保持高效。他有一份所有孩子的名单，并且知道他们…

1天前

大数据

大数据命令，一文在手，全部都有2.0（领取文件）

Linux 1. vi/vim 一般模式语法功能描述 yy 复制光标当前一行 y数字y 复制一段（从第几行到第几行） p 箭头移动到目的行粘贴 u 撤销上一步 dd 删除光标当前…

1天前

Flink 的架构与组件

1.背景介绍 Flink 是一个流处理框架，用于实时数据处理和分析。它是一个开源项目，由阿帕奇基金会支持和维护。Flink 的设计目标是提供一个高性能、可扩展、可靠的流处理平台，用…

大数据 1天前

hadoop01

hadoop完全分布式搭建 1 完全分布式介绍 Hadoop运行模式包括：本地模式（计算的数据存在Linux本地，在一台服务器上自己测试）、伪分布式模式（和集群接轨 HDFS y…

大数据 1天前

机器学习与大数据：智能分析与预测

1.背景介绍机器学习(Machine Learning)是一种人工智能(Artificial Intelligence)的子领域，它旨在让计算机自主地从数据中学习出模式和规律，从…

大数据 1天前

大数据AI：解密医疗健康行业未来

1.背景介绍在当今的数字时代，人工智能(AI)和大数据技术已经成为医疗健康行业的核心驱动力。随着数据的产生和收集量日益增加，医疗健康行业需要更有效、高效、智能的方法来处理、分析和…

大数据 1天前

大数据

【flink番外篇】1、flink的23种常用算子介绍及详细示例（完整版）

Flink 系列文章一、Flink 专栏 Flink 专栏系统介绍某一知识点，并辅以具体的示例进行说明。 1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。…

1天前

大数据

黄震宁：我的大数据能力提升之路 | 提升之路系列（六）

导读为了发挥清华大学多学科优势，搭建跨学科交叉融合平台，创新跨学科交叉培养模式，培养具有大数据思维和应用创新的“π”型人才，由清华大学研究生院、清华大学大数据研究中心及相关院系共…

1天前