机器学习具体算法系列之聚类分析

宽客网,量化投资,宽客俱乐部

聚类分析(Cluster analysis)是对于静态数据分析的一门技术,在包括机器学习的许多领域受到广泛应用,如数据挖掘,模式识别,图像分析以及生物信息。聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集(subset),这样让在同一个子集中的成员对象都有相似的一些属性,常见的包括在坐标系中更加短的空间距离等。一般把数据聚类归纳为一种非监督式学习。

数据聚类算法可以分为结构性或者分散性。

结构性算法利用以前成功使用过的聚类器进行分类,而分散型算法则是一次确定所有分类。结构性算法可以从上至下或者从下至上双向进行计算。从下至上算法从每个对象作为单独分类开始,不断融合其中相近的对象。而从上至下算法则是把所有对象作为一个整体分类,然后逐渐分小。分散式聚类算法,是一次性确定要产生的类别,这种算法也已应用于从下至上聚类算法。

1.结构性聚类

在结构性聚类中,关键性的一步就是要选择测量的距离。常用的几个距离算法有:

  1. 欧式距离(2-norm距离)
  2. 曼哈顿距离(Manhattan distance, 1-norm距离)
  3. infinity norm
  4. 马氏距离
  5. 余弦相似性
  6. 汉明距离

在已经得到距离值之后,元素间可以被联系起来。通过分离和融合可以构建一个结构。传统上,表示的方法是树形数据结构, 然后对该结构进行修剪。树的根节点表示一个包含所有项目的类别,树叶表示与个别的项目相关的类别。层次聚类算法,要么是自底向上聚集型的,即从叶子节点开始,最终汇聚到根节点;要么是自顶向下分裂型的,即从根节点开始,递归的向下分裂。任意非负值的函数都可以用于衡量一对观测值之间的相似度。决定一个类别是否分裂或者合并的是一个连动的标准,它是两两观测值之间距离的函数。在一个指定高度上切割此树,可以得到一个相应精度的分类。

2.分散性聚类

常用的算法有K-均值法及衍生算法。

  1. K-均值法
  2. QT聚类算法
  3. 图论方法
    技术, IT技术, 机器学习, 算法,



                                                    风险提示及免责条款

市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部