大数据
-
大数据实验报告英汉对照版(Hadoop安装与配置)
1.Experimental purpose: 实验目的 The main purpose of this experiment is to verify Hadoop’…
-
【Spark实践6】特征转换FeatureTransformers实践Scala版–补充算子
本节介绍了用于处理特征的算法,大致可以分为以下几组: 提取(Extraction):从“原始”数据中提取特征。 转换(Transformation):缩放、转换或修改特征。 选择(…
-
HBase中的数据版本控制与回滚策略
1.背景介绍 1. 背景介绍 HBase是一个分布式、可扩展、高性能的列式存储系统,基于Google的Bigtable设计。它广泛应用于大规模数据存储和处理,如日志记录、实时数据分…
-
ElasticSearch查询语句用法
查询用法包括:match、match_phrase、multi_match、query_string、term 1.match 1.1 不同字段权重 如果需要为不同字段设置不同权重…
-
Elasticsearch基础篇(七):分片大小修改和路由分配规则
Elasticsearch基础篇(七):分片大小修改和路由分配规则 1. 分片 1.1 主分片(Primary Shard) 1.2 副本分片(Replica Shard) 1.3…
-
Flink与ApacheKafka的流处理
1.背景介绍 1. 背景介绍 Apache Flink 和 Apache Kafka 是两个非常重要的开源项目,它们在大规模数据流处理和分布式系统中发挥着重要作用。Flink 是一…
-
Elasticsearch索引库和文档的相关操作
前言:最近一直在复习Elasticsearch相关的知识,公司搜索相关的技术用到了这个,用公司电脑配了环境,借鉴网上的课程进行了总结。希望能够加深自己的印象以及帮助到其他的小伙伴儿…
-
Elasticsearch:是时候离开了! – 在 Elasticsearch 文档上使用 TTL
作者:来自 Elastic David Pilato 想象一下,圣诞老人必须向世界上所有的孩子们分发礼物。 他有很多工作要做,他需要保持高效。 他有一份所有孩子的名单,并且知道他们…
-
大数据命令,一文在手,全部都有2.0(领取文件)
Linux 1. vi/vim 一般模式语法 功能描述 yy 复制光标当前一行 y数字y 复制一段(从第几行到第几行) p 箭头移动到目的行粘贴 u 撤销上一步 dd 删除光标当前…
-
Flink 的架构与组件
1.背景介绍 Flink 是一个流处理框架,用于实时数据处理和分析。它是一个开源项目,由阿帕奇基金会支持和维护。Flink 的设计目标是提供一个高性能、可扩展、可靠的流处理平台,用…
-
hadoop01
hadoop完全分布式搭建 1 完全分布式介绍 Hadoop运行模式包括:本地模式(计算的数据存在Linux本地,在一台服务器上 自己测试)、伪分布式模式(和集群接轨 HDFS y…
-
机器学习与大数据:智能分析与预测
1.背景介绍 机器学习(Machine Learning)是一种人工智能(Artificial Intelligence)的子领域,它旨在让计算机自主地从数据中学习出模式和规律,从…
-
大数据AI:解密医疗健康行业未来
1.背景介绍 在当今的数字时代,人工智能(AI)和大数据技术已经成为医疗健康行业的核心驱动力。随着数据的产生和收集量日益增加,医疗健康行业需要更有效、高效、智能的方法来处理、分析和…
-
【flink番外篇】1、flink的23种常用算子介绍及详细示例(完整版)
Flink 系列文章 一、Flink 专栏 Flink 专栏系统介绍某一知识点,并辅以具体的示例进行说明。 1、Flink 部署系列 本部分介绍Flink的部署、配置相关基础内容。…
-
黄震宁:我的大数据能力提升之路 | 提升之路系列(六)
导读 为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的“π”型人才,由清华大学研究生院、清华大学大数据研究中心及相关院系共…
