当前位置：首页 > 编程日记 > 正文

讲解K-Means聚类算法进行压缩图片

编程日记 2023-12-15 10:00:08

讲解K-Means聚类算法进行压缩图片

讲解K-Means聚类算法进行压缩图片

在计算机视觉领域中，图像压缩是一个重要的问题。在本文中，我们将介绍如何使用K-Means聚类算法来压缩图像。K-Means算法是一种常用的聚类算法，它可以将数据分成几个不同的簇，每个簇的数据点都具有相似的特征。

背景知识

在开始之前，让我们先了解一些基本的背景知识。

K-Means算法

K-Means算法是一种迭代的、无监督的聚类算法，用于将数据点划分为K个不同的簇。算法的核心思想是通过计算数据点与各个簇中心的距离，将数据点分配给距离最近的簇。然后，根据分配的结果，重新计算每个簇的中心点。迭代上述过程，直到收敛为止。

图像压缩

图像压缩是减少图像文件大小的过程，同时尽可能地保持图像的视觉质量。在本文中，我们将使用K-Means算法对图像进行压缩。压缩的思想是使用较少的颜色来表示整个图像，从而减少图像的大小。

实施步骤

下面是使用K-Means算法进行图像压缩的步骤：

1. 加载图像

首先，我们需要加载要压缩的图像。我们可以使用Python的PIL库或OpenCV库来实现这一步骤。

pythonCopy code
import cv2
# 加载图像
image = cv2.imread('input_image.jpg')

2. 数据预处理

在应用K-Means算法之前，我们需要对图像数据进行预处理。通常情况下，我们将图像转换为一维数组，其中每个元素表示图像中的一个像素。

pythonCopy code
# 将图像转换为一维数组
pixels = image.reshape(-1, 3)

3. 执行K-Means算法

接下来，我们使用K-Means算法对图像进行聚类。我们可以使用scikit-learn库中的KMeans类来实现这一步骤。

pythonCopy code
from sklearn.cluster import KMeans
# 使用K-Means算法进行聚类
kmeans = KMeans(n_clusters=16)
kmeans.fit(pixels)

在这个示例中，我们将图像分为16个簇。你可以根据需要调整簇的数量。

4. 替换颜色

根据K-Means算法的结果，我们可以找到每个簇的中心点，然后用这些中心点的颜色替代原始图像中的像素颜色。

pythonCopy code
# 替换颜色
compressed_pixels = kmeans.cluster_centers_[kmeans.labels_]

5. 重新构建图像

最后，我们将压缩后的像素重新构建为图像。

pythonCopy code
# 重新构建图像
compressed_image = compressed_pixels.reshape(image.shape)

6. 保存图像

最后，我们将压缩后的图像保存到文件中。

pythonCopy code
# 保存图像
cv2.imwrite('compressed_image.jpg', compressed_image)

实例

下面是一个完整的示例代码，展示了如何使用K-Means聚类算法来压缩图像。

pythonCopy code
import cv2
from sklearn.cluster import KMeans
# 加载图像
image = cv2.imread('input_image.jpg')
# 将图像转换为一维数组
pixels = image.reshape(-1, 3)
# 使用K-Means算法进行聚类
kmeans = KMeans(n_clusters=16)
kmeans.fit(pixels)
# 替换颜色
compressed_pixels = kmeans.cluster_centers_[kmeans.labels_]
# 重新构建图像
compressed_image = compressed_pixels.reshape(image.shape)
# 保存图像
cv2.imwrite('compressed_image.jpg', compressed_image)

当谈到K-Means聚类算法的实际应用时，图像压缩是其中之一。以下是一个结合实际应用场景的示例代码，展示了如何使用K-Means聚类算法来压缩图像。

pythonCopy code
import cv2
from sklearn.cluster import KMeans
# 加载图像
image = cv2.imread('input_image.jpg')
# 预处理图像
resized_image = cv2.resize(image, (500, 500))  # 调整图像大小
pixels = resized_image.reshape(-1, 3)
# 使用K-Means算法进行聚类
kmeans = KMeans(n_clusters=16)
kmeans.fit(pixels)
# 替换颜色
compressed_pixels = kmeans.cluster_centers_[kmeans.labels_]
compressed_image = compressed_pixels.reshape(resized_image.shape).astype('uint8')
# 保存压缩后的图像
cv2.imwrite('compressed_image.jpg', compressed_image)
# 显示原始图像和压缩后的图像
cv2.imshow('Original Image', image)
cv2.imshow('Compressed Image', compressed_image)
cv2.waitKey(0)
cv2.destroyAllWindows()

在这个示例中，我们使用了OpenCV库来加载、调整大小和显示图像。我们首先将图像调整为500x500的大小，然后将其转换为一维像素数组。然后，我们使用K-Means算法对像素进行聚类，并替换像素的颜色为每个簇的中心颜色。最后，我们保存压缩后的图像，并展示原始图像和压缩后的图像。请确保将示例代码中的input_image.jpg替换为您要压缩的实际图像文件的路径。

K-Means算法是一种简单而有效的聚类算法，但它也存在一些缺点和类似的算法。缺点：

初始聚类中心的选择：K-Means算法对初始聚类中心的选择非常敏感。不同的初始选择可能导致不同的聚类结果。因此，为了得到最优的结果，需要进行多次运行以尝试不同的初始值，并且结果可能仍然受到初始值的影响。
对噪声和异常值敏感：K-Means算法对噪声和异常值非常敏感，可能将其错误地分配给某一个簇，从而影响聚类的准确性。
对簇的形状和大小敏感：K-Means算法假设簇是凸形状的，并且簇的大小基本相似。对于非凸形状的簇或者大小相差很大的簇，K-Means算法可能无法有效地进行聚类。类似的算法：
K-Means++：K-Means++是K-Means算法的改进版，通过一种更智能的方式选择初始聚类中心。K-Means++算法在选择初始中心时候，会考虑距离已有聚类中心较远的点，以尽量避免局部最优解的产生。
DBSCAN：DBSCAN是一种基于密度的聚类算法，相较于K-Means，它不需要预先指定聚类的数量。DBSCAN通过基于样本点的密度来划分聚类，可以处理各种形状和大小的簇，并且对噪声和异常值鲁棒。
层次聚类：层次聚类是一种自底向上或自顶向下的聚类方法，通过将样本逐渐合并或分割来构建聚类树。层次聚类可以自动确定聚类的数量，并且对于不同形状和大小的簇具有较好的鲁棒性。
GMM（高斯混合模型）聚类：GMM聚类假设样本数据是由多个高斯分布组成的混合模型。它通过迭代的方式估计每个样本点属于每个高斯分布的概率，然后进行聚类划分。GMM聚类可以自动适应不同形状和大小的簇。这些类似的聚类算法可以在特定问题场景下提供更好的聚类效果，并克服了K-Means算法的一些缺点。选择合适的聚类算法取决于数据的特点和实际应用需求。

总结

在本文中，我们讲解了如何使用K-Means聚类算法来压缩图像。通过K-Means算法，我们能够找到图像中的主要颜色，并用这些颜色替换原始图像中的像素颜色，从而实现图像的压缩。这个简单的技术可以在一定程度上减小图像文件的大小，同时保持图像的可视化效果。希望这篇文章能够帮助你理解如何使用K-Means聚类算法进行图像压缩。如果你想进一步学习图像处理和压缩的知识，推荐你深入研究相关的算法和工具。

算法kmeans聚类

https://www.dkcj.cn/info/370.html

Math: Math.atan() 与 Math.atan2() 计算两点间连线的夹角

Math.atan2()函数返回点(x,y)和原点(0,0)之间直线的倾斜角.那么如何计算任意两点间直线的倾斜角呢?只需要将两点x,y坐标分别相减得到一个新的点(x2-x1,y2-y1).然后利用他求出角度就可以了.使用下面的一个转换可以实现计算出两点间连线的夹角.然而,Math.atan()只能返回一个角度值,因此确定他的角度非常的复杂,而且,90度和270度的正切是无穷大,因为除数为零,我们也是比较难以处理的~!angel为一个角度的弧度值,slope为直线的斜率,是一个数字,这个数字可以是负的。

编程日记2024/02/24 00:00:05

Integer.toHexString(b & 0xff)理解以及& 0xff什么意思

首先toHexString传的参数应该是int类型32位，此处传的是byte类型8位，所以前面需要补24个0。然后& 0xff 就是把前面24个0去掉只要后8位。toHexString(b & 0xff)相当于做了一次位的与运算，将前24位字符省略，将后8位保留。是两个十六进制的数,每个f用二进制表示是1111,所以占四位（bit）,两个f（）占八位（bit），八位（bit）也就是一个字节（byte）.这个方法是把字节（转换成了int）以16进制的方式显示。我的理解是这样，如有不对欢迎指正！

编程日记2024/02/14 01:00:01

CSS局限属性contain：优化渲染性能的利器

在网页开发中，优化渲染性能是一个重要的目标。CSS局限属性contain是一个强大的工具，可以帮助我们提高网页的渲染性能。本文将介绍contain属性的基本概念、用法和优势，以及如何使用它来优化网页的渲染过程。

编程日记2024/02/02 15:11:24

Java数据结构与算法：排序算法之插入排序

插入排序是一种基础的比较排序算法，其核心思想是将待排序的序列分为两部分，一部分是已排序的，另一部分是未排序的。在未排序部分选择一个元素，插入到已排序部分的适当位置，以此类推，直到所有元素都被排序完毕。插入排序的实现简单直观，是初学者入门排序算法的绝佳选择。

编程日记2024/01/20 09:06:39

Java数据结构与算法：排序算法之归并排序

归并排序是一种基于分治思想的排序算法，它将待排序的序列划分成若干个子序列，分别进行排序，最后再合并成一个有序的序列。这一过程通过递归实现，直到每个子序列中只有一个元素，即可认为其已经有序。随后，通过两两合并有序序列，最终完成整个序列的排序。

编程日记2024/01/20 09:05:58

Java数据结构与算法：排序算法之选择排序

选择排序是一种基础的比较排序算法，其核心思想是通过多次遍历待排序的元素，每次找到最小（或最大）的元素，放到已排序的序列的末尾（或开头）。尽管选择排序不如一些高级排序算法在性能上优越，但它的思想清晰、实现简单，是学习排序算法的重要一步。

编程日记2024/01/20 09:05:41

Java数据结构与算法：排序算法之冒泡排序

冒泡排序是一种基础的比较排序算法，其核心思想是多次遍历待排序的元素，通过不断交换相邻的元素，使得最大（或最小）的元素逐步移动到正确的位置。虽然它在效率上不如一些高级排序算法，但其实现简单，是学习排序算法的绝佳入门。

编程日记2024/01/20 09:05:16

Java数据结构与算法：排序算法之快速排序

快速排序是一种基于分治思想的排序算法，通过选取一个基准元素，将序列分成两个子序列，分别对左右两个子序列进行排序，从而达到整个序列有序的目的。快速排序的关键在于分区（Partition），即将序列分成两部分，使得左边的元素都小于基准元素，右边的元素都大于基准元素。

编程日记2024/01/20 09:04:38

【MATLAB】 SSA奇异谱分析信号分解算法

SSA奇异谱分析（Singular Spectrum Analysis）是一种处理非线性时间序列数据的方法，可以对时间序列进行分析和预测。它基于构造在时间序列上的特定矩阵的奇异值分解（SVD），可以从一个时间序列中分解出趋势、振荡分量和噪声。具体流程如下：根据原始时间序列构建轨迹矩阵X XX。对矩阵X进行奇异值分解：X = ∑ i = 1 r σ i U i V i T X=\sum_{i=1}^{r} \sigma_i U_i V_{i}^TX=∑i=1rσiUiViT。

编程日记2024/01/14 21:25:30

ArrayList底层的实现原理

ArrayList底层的实现原理 ArrayList底层是用动态数组实现的 ArrayList初始化容量为0，当第一次添加数据的时候才会初始化为10。 ArrayList在进行扩容的时候是原来容量的1.5倍，每次扩容都需要拷贝数组。 ArrayList在添加数据的时候确保数组已使用长度size+1之后足够存下下一个数据计算数组的容量，如果当前数组已使用长度+1后的大于当前的数组长度，则调用grow方法扩容（原来的1.5倍）确保新增的数据有地方存储之后，则将新

编程日记2024/01/13 10:22:13

Leetcode算法系列| 11. 盛最多水的容器

给定一个长度为 n 的整数数组 height。有 n 条垂线，第 i 条线的两个端点是 (i, 0) 和 (i, height[i])。找出其中的两条线，使得它们与 x 轴共同构成的容器可以容纳最多的水。返回容器可以储存的最大水量。说明：你不能倾斜容器。

编程日记2024/01/05 10:51:13

基于huffman编解码的图像压缩算法matlab仿真

Huffman编码是一种用于无损数据压缩的熵编码算法。由David A. Huffman在1952年提出。该算法完全依据字符出现概率来构造异字头的平均长度最短的码字，有时称之为最佳编码，一般就叫做Huffman编码。

编程日记2023/12/30 16:55:06

python爬虫之selenium模拟浏览器

之前在异步加载（AJAX）网页爬虫的时候提到过，爬取这种ajax技术的网页有两种办法：一种就是通过浏览器审查元素找到包含所需信息网页的真实地址，另一种就是通过selenium模拟浏览器的方法[1]。当时爬的是豆瓣，比较容易分析出所需信息的真实地址，不过一般大点的网站像淘宝这种是不好分析的，所以利用selenium模拟浏览器的行为来爬取数据是一个比较可行的办法。

编程日记2023/12/27 10:10:04

程序，进程，线程，超线程之间的联系和区别

当我们谈到计算机程序的执行时，经常会涉及到“程序”，“进程”，“线程”和“超线程”这些概念。通过理解这些概念及其之间的联系和区别，可以帮助我们更好地理解计算机程序的执行方式和并发处理机制。来源：6547网 http://www.6547.cn/blog/442。

编程日记2023/12/25 15:39:32

讲解mtrand.RandomState.randint low ＞= high

第一个例子生成了一个介于 0 和 10 之间（不包括 10）的随机整数，而第二个示例生成了一个形状为 (3, 2) 的二维数组，其中的元素是介于 1 和 100 之间（不包括 100）的随机整数。这样，我们就可以在实际的密码重置场景中使用 generate_reset_code() 函数来生成一个随机验证码，并将其发送给用户进行密码重置操作。这段代码的预期目标是生成一个范围为 [low, high) 的随机整数，即在 5 到 3 之间（不包括 3）生成一个整数。的问题，并生成所需范围内的随机整数。

编程日记2023/12/23 20:30:10

java并发编程九 ABA 问题及解决，原子数组和字段更新

它指的是一个共享变量的值在操作期间从A变为B，然后再从B变回A，而CAS操作可能会错误地认为没有其他线程修改过这个值。AtomicStampedReference 可以给原子引用加上版本号，追踪原子引用整个的变化过程，如： A -> B -> A ->C，通过AtomicStampedReference，我们可以知道，引用变量中途被更改了几次。只要有其它线程【动过了】共享变量，那么自己的 cas 就算失败，这时，仅比较值是不够的，需要再加一个版本号 AtomicStampedReference。

编程日记2023/12/23 01:00:03

JavaScript数组常用方法

编程日记2023/12/22 16:07:35

算法模板之栈图文详解

本文主要讲解栈的定义、用数组模拟栈的相关操作以及相关题目介绍，更多精彩内容等你来浏览。

编程日记2023/12/22 12:30:04

讲解RuntimeError: dimension specified as 0 but tensor has no dimensions

是一个常见的错误，它通常在尝试操作一个没有维度的张量时发生。我们可以通过检查张量的元素数量或使用 if 判断来避免这个错误。无论你选择哪种方法，都要确保在操作之前进行维度检查，确保张量不为空。这样可以避免出现运行时错误，并使你的代码能够正确运行。希望这篇文章能够帮助你理解和解决错误，并提高你的深度学习和机器学习代码的健壮性。如果你还有其他相关问题，请随时提问！

编程日记2023/12/22 09:30:10

讲解UserWarning: Update your Conv2D

Conv2D"告警信息是在旧版深度学习框架中使用较新的CNN模型时常见的问题。通过查阅官方文档并根据指导更新代码，我们能够适应新的API、参数或者用法，确保模型的正确性和性能。由于不同的框架和版本有所不同，我们需要根据具体情况来解决这个问题。及时更新框架和代码，保持与最新和推荐的版本保持同步，是进行深度学习研究和开发的重要环节。

编程日记2023/12/22 09:30:10

讲解CUBLAS_STATUS_NOT_INITIALIZED解决

在使用CUBLAS库进行GPU加速的线性代数运算时，出现CUBLAS_STATUS_NOT_INITIALIZED错误是比较常见的问题。在使用CUDA加速库时，特别是在使用CUBLAS库进行GPU加速的线性代数运算时，有时我们可能会遇到CUBLAS_STATUS_NOT_INITIALIZED错误。在本篇文章中，我们将深入探讨这个错误的原因，并给出解决方法。CUBLAS_STATUS_NOT_INITIALIZED错误的主要原因是在调用CUBLAS函数之前未正确初始化CUBLAS库。

编程日记2023/12/21 10:00:10

算法模板之双链表图文详解

本文主要讲解双链表模板，文中带有超详细的图文讲解，希望对你的算法学习有一定的帮助。

编程日记2023/12/18 11:30:05

讲解pytho作线性拟合、多项式拟合、对数拟合

综上所述，Matplotlib 是一个功能强大且灵活的可视化库，可以帮助我们轻松创建各种类型的图形，并对其进行定制和调整，以满足不同的需求。通过使用Python的numpy和matplotlib库，我们可以轻松实现线性拟合、多项式拟合和对数拟合。拟合（Fitting）是数据分析中常用的一种方法，它可以根据已有的数据，找到最适合这些数据的函数模型。Python提供了丰富的库和工具，可用于进行线性拟合、多项式拟合和对数拟合。假设我们有一组测量的物理实验数据，我们希望通过多项式拟合来拟合出一个近似的曲线。

编程日记2023/12/18 10:00:17

C++会搜索的二叉树（BSTree)

本片文章主要介绍了二叉搜索树，并模拟实现！！！

编程日记2023/12/16 22:30:08

算法模板之单链表图文讲解

本文主要讲解单链表模板，文中附有图文讲解，希望对你的算法学习有一定的帮助。

编程日记2023/12/16 22:30:05

【剑指offer|图解|二分查找】点名 + 统计目标成绩的出现次数

本文主要讲解二分查找相关题目，文中附有图文讲解，更多精彩内容等你来浏览。

编程日记2023/12/14 09:30:06

【剑指offer|图解|二分查找】点名 + 统计目标成绩的出现次数

本文主要讲解二分查找相关题目，文中附有图文讲解，更多精彩内容等你来浏览。

编程日记2023/12/14 08:30:05

C/C++，FEISTDLIB的部分源代码

编程日记2023/12/13 08:00:05

【Spring boot】RedisTemplate中String、Hash、List设置过期时间

putIfAbsent 指的是如果传入key对应的value已经存在，就返回存在的value，不进行替换。如果不存在，就添加key和value，返回null。如果传入key对应的value已经存在，就返回存在的value，不进行替换。如果不存在，就添加key和value，返回null。下面这两句话，可以实现向Redis插入Hash数据，并且设置整个Hash的过期时间。TimeUnit.MILLISECONDS：毫秒。TimeUnit.MILLISECONDS：微秒。TimeUnit.MINUTES：分。

编程日记2023/12/12 22:30:02

C/C++，动态 DP 问题的计算方法与源程序

编程日记2023/12/12 18:30:04

讲解K-Means聚类算法进行压缩图片

背景知识

K-Means算法

图像压缩

实施步骤

1. 加载图像

2. 数据预处理

3. 执行K-Means算法

4. 替换颜色

5. 重新构建图像

6. 保存图像

实例

总结

相关文章：