数据挖掘之离群点检测的方法

数据挖掘之离群点检测的方法,第1张

离群点检测是数据挖掘中重要的一部分,它的任务是发现与大部分其他对象显著不同的对象。大部分数据挖掘方法都将这种差异信息视为噪声而丢弃,然而在一些应用中,罕见的数据可能蕴含着更大的研究价值。

离群点的检测已经被广泛应用于电信和xyk的诈骗检测、贷款审批、电子商务、网络入侵和天气预报等领域。

离群点的主要成因有:数据来源于不同的类、自然变异、数据测量和手机误差。

从数据范围来看,分为全局离群点和局部离群点,整体来看,某些对象没有离群特征,但是从局部来看,却显示了一定的离群性。

从数据类型来看,分为数值型离群点和分类型离群点,这是以数据集的属性类型进行划分的。

从属性的个数来看,分为一维离群点和多维离群点,一个对象可能有一个或多个属性。

大部分的基于统计的离群点检测方法是构建一个概率分布模型,并计算对象符合该模型的概率,把具有低概率的对象视为离群点。基于统计模型的离群点检测方法的前提是必须知道数据集服从什么分布;对于高维数据,检验效果可能很差。

通常可以在数据对象之间定义邻近性度量,把原理大部分点的对象视为离群点。二位或三维的数据可以做散点图观察;大数据集不适用;对参数选择敏感;具有全局阈值,不能处理具有不同密度区域的数据集

考虑数据集可能存在不同密度区域这一事实,从基于密度的观点分析,离群点是在低密度区域中的对象。一个对象的离群点得分是该对象周围密度的逆。给出了对象是离群点的定量度量,并且即使数据具有不同的区域也能够很好的处理;大数据集不适用;参数选择是困难的。

一种利用聚类检测离群点的方法是丢弃远离其他簇的小簇;另一种更系统的方法,首先聚类所有帝乡,然后评估对象属于簇的程度。基于聚类技术来发现离群点可能是高度有效的;聚类算法产生的簇的质量对该算法产生的离群点的质量影响非常大。

基于统计模型的离群点检测方法需要满足统计学原理,如果分布一直,则检验可能非常有效。基于邻近度的离群点检测方法比统计学方法更一般、更容易使用,因为确定数据集有意义的邻近度量比确定他的统计分布更容易。基于密度的离群点检测与基于邻近度的离群点检测密切相关,因为密度常用邻近度定义:一种是定义密度为到K个最邻近的平均距离的倒数,如果该距离小,则密度高;另一种是使用DBSCAN聚类算法,一个对象周围的密度等于该对象指定距离d内对象的个数。

25、基于真实数据集的离群点检测

import numpy as np

from sklearn.covariance import EllipticEnvelope

from sklearn.svm import OneClassSVM

import matplotlib.pyplot as plt

import matplotlib.font_manager

from sklearn.datasets import load_wine

plt.rcParams['font.sans-serif'] = ['SimHei']

plt.rcParams['axes.unicode_minus'] = False

# 定义要使用的“分类器”

classifiers = {

    "Empirical Covariance": EllipticEnvelope(support_fraction=1.,

                                            contamination=0.25),

    "Robust Covariance (Minimum Covariance Determinant)":

    EllipticEnvelope(contamination=0.25),

    "OCSVM": OneClassSVM(nu=0.25, gamma=0.35)}

colors = ['m', 'g', 'b']

legend1 = {}

legend2 = {}

# 获取数据

X1 = load_wine()['data'][:, [6, 9]]  # 两簇

#利用多个分类器学习离群点检测的前沿

xx1, yy1 = np.meshgrid(np.linspace(-1, 5.5, 500), np.linspace(-2.5, 19, 500))

for i, (clf_name, clf) in enumerate(classifiers.items()):

    plt.figure(1)

    clf.fit(X1)

    Z1 = clf.decision_function(np.c_[xx1.ravel(), yy1.ravel()])

    Z1 = Z1.reshape(xx1.shape)

    legend1[clf_name] = plt.contour(

        xx1, yy1, Z1, levels=[0], linewidths=2, colors=colors[i])

legend1_values_list = list(legend1.values())

legend1_keys_list = list(legend1.keys())

# 绘制结果(数据点云的形状)

plt.figure(1)  # 两簇

plt.title("基于真实数据集的离群点检测(葡萄酒识别)")

plt.scatter(X1[:, 0], X1[:, 1], color='black')

plt.xlim((xx1.min(), xx1.max()))

plt.ylim((yy1.min(), yy1.max()))

plt.legend((legend1_values_list[0].collections[0],

            legend1_values_list[1].collections[0],

            legend1_values_list[2].collections[0]),

          (legend1_keys_list[0], legend1_keys_list[1], legend1_keys_list[2]),

          loc="upper center",

          prop=matplotlib.font_manager.FontProperties(size=11))

plt.ylabel("color_intensity")

plt.xlabel("flavanoids")

plt.show()


欢迎分享,转载请注明来源:内存溢出

原文地址: http://www.outofmemory.cn/bake/11951820.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-19
下一篇 2023-05-19

发表评论

登录后才能评论

评论列表(0条)

保存