【AI原理解析】—k-means原理

news/2024/7/8 6:53:58 标签: 人工智能, kmeans, 机器学习

目录

步骤

注意事项

优点

缺点


步骤

  1. 初始化
    • 选择 k 个初始质心(通常通过随机选择数据集中的 k 个点作为初始质心)。
  2. 迭代过程
    • 分配数据点到最近的质心
      • 对于数据集中的每个数据点,计算它与 k 个质心之间的距离(例如,使用欧几里得距离)。
      • 将数据点分配给距离其最近的质心所对应的聚类。
    • 重新计算质心
      • 对于每个聚类,计算该聚类中所有数据点的均值(平均值),并将这个均值设为新的质心。
    • 检查收敛
      • 重复上述两个步骤,直到达到某个停止条件(例如,质心的变化小于某个阈值,或者达到预设的迭代次数)。
  3. 结果输出
    • 最终的聚类结果和每个聚类的质心。

效果评估方法

  • SSE(Sum of Squared Errors):计算每个样本与其所属簇中心点的距离的平方和。SSE值越小,表示聚类效果越好。
  • 轮廓系数(Silhouette Coefficient):综合考虑了样本之间的紧密度和分离度。轮廓系数越接近于1,表示聚类效果越好。

注意事项

  • k 的选择:k 的值需要预先设定,而且不同的 k 值可能会导致不同的聚类结果。因此,k 的选择通常基于领域知识、数据的可视化或一些启发式方法(如肘部法则)。
    • 手肘法:通过绘制不同k值下的代价函数曲线,选择曲线趋于平稳前的拐点作为最佳k值。
    • Gap Statistic方法:通过计算真实样本和随机样本在不同k值下的损失函数差值(Gap值),选择使Gap值最大的k值作为最佳k值。
  • 初始质心的选择:随机选择初始质心可能会导致不同的聚类结果。为了解决这个问题,可以使用一些更复杂的初始化方法,如 K-means++。
  • 对异常值的敏感性:由于质心是基于所有数据点的均值计算的,因此异常值可能会对聚类结果产生较大影响。
  • 空聚类:在某些情况下,可能会出现某些聚类中没有数据点的情况。这通常是由于初始质心的选择不当或 k 值设置得过大导致的。
  • 迭代次数和收敛条件:需要设置适当的迭代次数和收敛条件来确保算法能够稳定地收敛。
  • 数据的预处理:在应用 k-means 算法之前,通常需要对数据进行一些预处理操作,如特征缩放、标准化或归一化,以确保不同的特征在聚类过程中具有相同的权重。

优点

  • 简单易懂,易于实现。
  • 在很多情况下都能得到较好的聚类结果。

缺点

  • 需要预先设定 k 的值。
  • 对初始质心的选择敏感。
  • 对异常值敏感。
  • 可能会陷入局部最优解。

http://www.niftyadmin.cn/n/5536729.html

相关文章

【C语言入门】初识C语言:掌握编程的基石

📝个人主页🌹:Eternity._ ⏩收录专栏⏪:C语言 “ 登神长阶 ” 🤡往期回顾🤡:C语言入门 🌹🌹期待您的关注 🌹🌹 ❀C语言入门 📒1. 选择…

FPGA基本资源介绍

文章目录 FPGA资源介绍1.可编程输入输出单元(IOB)2.可配置逻辑块(CLB)3.数字时钟管理模块(DCM)4.嵌入式块RAM(BLOCK RAM / BRAM)4.1其他ram 5.丰富的布线资源6.底层内嵌功能单元7.内嵌专用硬核软核、硬核、以及固核的概念 FPGA资源介绍 1.可编程输入输出单元(IOB) 可编程输入…

引领汽车软件开发走向ASPICE认证之路

亚远景科技与ASPICE认证的关系可以从以下几个方面来阐述: (要明确的是:在ASPICE行业中专业来说,ASPICE项目是没有认证,而只有评估。不过,为了方便沟通,人们常将这一评估过程称为认证。) 行业专…

面向6G全域融合的智能接入关键技术综述

源自:电子与信息学报 作者:王雪, 孟姝宇, 钱志鸿 注:若出现无法显示完全的情况,可 V 搜索“人工智能技术与咨询”查看完整文章 摘 要 针对空天地一体化接入网络,该文在总结相关研究的基础上,阐述了…

探索PcapPlusPlus开源库:网络数据包处理与性能优化

文章目录 0. 本文概要1. PcapPlusPlus介绍1.1 概述1.2主要特性和功能1.3 PcapPlusPlus 主要模块关系和依赖1.4 网络协议层处理过程 2. 实例2.1 基于 PcapPlusPlus 的应用程序设计和封装流程:2.2 多线程示例代码2.3 代码说明: 3. 程序性能进一步优化3.1 避…

线性代数|机器学习-P21概率定义和Markov不等式

文章目录 1. 样本期望和方差1.1 样本期望 E ( X ) \mathrm{E}(X) E(X)1.2 样本期望 D ( X ) \mathrm{D}(X) D(X) 2. Markov 不等式&Chebyshev不等式2.1 Markov不等式公式 概述2.2 Markov不等式公式 证明:2.3 Markov不等式公式 举例:2.4 Chebyshev不…

AI基本概念(人工智能、机器学习、深度学习)

人工智能 、 机器学习、 深度学习的概念和关系 人工智能 (Artificial Intelligence)AI- 机器展现出人类智慧机器学习 (Machine Learning) ML, 达到人工智能的方法深度学习 (Deep Learning)DL,执行机器学习的技术 从范围…

从零开始的python学习生活

第一天 pycharm部分好用快捷键 变量名的定义 与之前学习过的语言有所不同的是,python中变量名的定义更加的简洁 such as 整形。浮点型和字符串的定义 money50 haha13.14 gaga"hello"字符串的定义依然是需要加上引号,也不需要写;…