无监督学习-聚类算法(k-means)

1天前 • 数据库

无监督学习-聚类算法

1、聚类介绍

1.1、聚类作用

知识发现
异常值检测
特征提取数据压缩的例子

1.2、有监督与无监督学习

有监督：

给定训练集X和标签Y
选择模型
- 学习（目标函数的最优化）
- 生成模型（本质上是一组参数、方程）

根据生成的一组参数进行预测分类任务

无监督：

拿到的数据只有X没有标签，只能根据X的相似程度做一些事情
Clustering 聚类：
- 对于大量未标注的数据集，按照内在的相似性来分为多个类别（簇）目标：类别内相似度大，类别内相似度大，类别间相似小
- 也可以用来改变数据的维度，可以将聚类结果作为一个维度添加到训练数据中。
- 降维算法，数据特征变少

1.3 聚类算法

在这里插入图片描述

图片来源：https://scikit-learn.org.cn/view/108.html

1.4 数据间的相似度

每一条数据都可以理解为多维空间中的一个点。
可以根据点和点之间的距离来评价数据间的相似度

1.5 余弦距离

将数据看做空间的中的点的时候，评价远近可以用欧式距离或者是余弦距离

计算过程如下：

将数据映射为高维空间中的点（向量）
计算向量间的余弦值
取值范围[-1,+1]趋于近于1代表相似，越趋于-1代表方向相反，0代表正交

c

o

s

θ

=

a

⋅

b

∣

∣

a

∣

∣

2

∣

∣

b

∣

∣

2

cos\theta = \frac{a \cdot b}{||a||_2||b||_2}

cosθ=∣∣a∣∣2∣∣b∣∣2a⋅b

c

o

s

θ

=

x

1

x

2

+

y

1

y

2

x

1

2

+

y

1

2

×

x

2

2

+

y

2

2

cos\theta = \frac{x_1x_2 + y_1y_2}{\sqrt{x_1^2 + y_1^2} \times \sqrt{x_2^2 + y_2^2}}

cosθ=x12+y12
×x22+y22
x1x2+y1y2

余弦相似度可以评价文章的相似度，从而实现对文章，进行分类。

K-means

2.1 聚类原理

将N个样本映射到k个簇中
将每个簇至少有一个样本

基本思路：
先给定k个划分，迭代样本与簇的隶属关系，每次都比前一次好一些
迭代若干次就能得到比较好的结果

2.2 K-means 算法原理

算法步骤：

选择k个初始的簇中心
逐个计算每个样本到簇中心的距离，将样本归属到距离最小的那个簇中心的簇中
每个簇内部计算平均值，更新簇中心
开始迭代

聚类的过程：

2.4 k-means 损失函数

∑

i

=

0

n

min

⁡

μ

j

∈

C

(

∣

∣

x

i

−

μ

j

∣

∣

2

)

\sum\limits_{i=0}^{n}\underset{\mu_j \in C}\min(||x_i – \mu_j||^2)

i=0∑nμj∈Cmin(∣∣xi−μj∣∣2)

其中

μ

j

=

1

∣

C

j

∣

∑

x

∈

C

j

x

\mu_j = \frac{1}{|C_j|}\sum\limits_{x \in C_j}x

μj=∣Cj∣1x∈Cj∑x 是簇的均值向量，或者说是质心。
其中

∣

∣

x

i

−

μ

j

∣

∣

2

||x_i – \mu_j||^2

∣∣xi−μj∣∣2代表每个样本点到均值点的距离（其实也是范数）。

2.5 K-means 执行过程

在这里插入图片描述

愿君前程似锦，未来可期去💯,感谢您的阅读，如果对您有用希望您留下宝贵的点赞和收藏

本文章为本人学习笔记，如有请侵权联系，本人会立即删除侵权文章。可以一起学习共同进步谢谢，如有请侵权联系，本人会立即删除侵权文章。

本文来自网络，不代表协通编程立场，如若转载，请注明出处：https://www.net2asp.com/f4c69838ce.html

学习算法聚类

赞 (0)

SparkStreamingKafka案例

« 上一篇 1天前

大数据开发之Spark（累加器、广播变量、Top10热门品类实战）

下一篇 » 1天前

解决：An HTTP error occurred when trying to retrieve this URL. HTTP errors are often intermittent

anaconda安装没有问题，但是在环境里面导入包时候报错，有以下几种原因可能导致错误原因一：镜像源导致的问题方法一：修改镜像源方法二：修改.condarc文件参考网上即可…

Python 1天前
Python

自定义模块加载(Python)

加载自定义模块，系统抛出“找不到文件”异常提示信息。 (笔记模板由python脚本于2024年01月28日 12:50:00创建，本篇笔记适合初通Python的coder翻阅) 【…

1天前
Python

Python正则表达式中group与groups的用法详解

本文主要介绍了Python正则表达式中group与groups的用法详解，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起…

1天前
Python

Python-OPCUA 读写西门子PLC设备的数据

Python版本:3.9 在python中，通过opc ua 通讯方式向PLC中读写数据 1. 安装opcua 首先安装一下opcua：pip install opcua 2. 实…

1天前
Python

Python网页爬虫爬取起点小说——re解析网页数据

Re解析爬虫响应数据需求：爬取起点小说网站中某一本小说的免费章节，包括章节的标题和内容。主要分为两步： 1.获取每一章节的标题和对应内容详情页的请求URL 2.获取每一章节内容…

1天前
人大金仓（kingbase）数据库常用sql命令

一. 字段 1. 添加 alter table book add column book_id varchar not null, book_title varchar(10) d…

数据库 1天前
Oracle之ORA-29275: 部分多字节字符

背景：在Oracle数据库中，通过查询 A表所有数据，发现某个字段出现字符问题 SELECT * FROM A 一、遇到的问题 ORA-29275: 部分多字节字符排查过程： …

数据库 1天前
数据库

别搞目录探测了，OK？

你们这几个IP都拿到了，别在gongji了； 23.225.180.204 – – [12/Jan/2023 03:38:55] “GET /sitemap…

1天前
数据库

MySQL的四种安装方式（新手必看、详解、保姆级教程）

MySQL是一个关系型数据库管理系统，由瑞典MySQL AB 公司开发，属于 Oracle 旗下产品。MySQL 是最流行的关系型数据库管理系统之一，在 WEB 应用方面，MySQ…

1天前
postgreSQL 操作教程

postgreSQL 操作教程 1. 建立数据库连接 2. 访问数据库列出当前数据库所有表列出数据库名切换数据库查询数据库、表名内部命令 SQL命令通用如(标准化SQL…

数据库 1天前