免费论文查重: 大雅 万方 维普 turnitin paperpass

论球体基于超球体多类支持向量数据描述医学图像分类新办法

最后更新时间:2024-05-22 作者:用户投稿原创标记本站原创 点赞:11229 浏览:38929
论文导读:VDD包容所有目标样本数据的最小超球体。并且相比SVM,SVDD有着复杂性低、易移植和训练速度快等优点,在信用卡欺诈检测、入侵检测、人脸识别领域等有着广泛的应用,同时SVDD在解决不平衡数据分类和多示例分类中已成为一种新方法。SVDD在单分类问题中分类效果比较好,其中超球体单分类支持向量机表现的效果更好,但是超球体单分类S
摘要:
针对乳腺X光医学图像多分类问题中训练速度比较慢的问题,提出超球体多分类支持向量数据描述(HCSVDD)分类算法,即把超球体单分类支持向量数据描述直接扩展到超球体多分类支持向量数据描述。通过对乳腺X光图像提取灰度共生矩阵特征;然后用核主成分分析(KPCA)对数据进行降维;最后用超球体多分类支持向量数据描述分类器进行分类。由于每一类样本只参与构造一个超球体的训练,因此训练速度明显提高。实验结果表明,这种超球体多分类支持向量数据描述分类器的平均训练时间为21.369s,训练时间比Wei等(WEI L Y, YANG Y Y, NISHIKAWA R M, et al. A study on several machinelearning methods中国免费论文网www.7ctime.com
for classification of malignant and benign clustered microcalcifications. IEEE Transactions on Medical Imaging, 2005, 24(3): 371-380)提出的组合分类器(平均训练时间40.2s)减少了10~20s,分类精度最高达7

6.6929%,适合解决类别数较多的分类问题。

关键词:
乳腺X光图像;多类支持向量数据描述;灰度共生矩阵;核主成分分析
0引言
乳腺癌是女性常见的肿瘤疾病之一,由于乳腺癌的病发机理还未完全弄清楚,因此早期诊断对防治乳腺癌十分重要。乳腺癌的临床诊断方法包括触摸式诊断、组织学诊断、细胞学诊断和影像学诊断四大类,其中影像诊断是最适合适龄女性乳腺癌诊断方法,乳腺X光摄影技术是最常见乳腺癌早期诊断方法。随着计算机技术的不断发展,医学图像上的计算机辅助诊断技术也得到了迅猛的发展,其中常用的方法有关联规则、决策树、遗传算法、人工神经网络神经网络、贝叶斯、粗糙集、模糊聚类和支持向量机(Support Vector Machine,SVM)等。支持向量机在近些年发展比较迅速,它是建立在统计学习理论中的VC理论和结构化风险最小原理基础上实现的一种机器学习方法[3],能较好地解决小样本、非线性、高维数和局部极小点等实际问题。Tax等[4]在1999年提出支持向量数据描述(Support Vector Data Description, SVDD),它是一种源于统计学习理论和SVM的全新的数据描述方法,与SVM寻求最优超平面不同,SVDD包容所有目标样本数据的最小超球体。并且相比SVM,SVDD有着复杂性低、易移植和训练速度快等优点,在信用卡欺诈检测、入侵检测、人脸识别领域等有着广泛的应用,同时SVDD在解决不平衡数据分类和多示例分类中已成为一种新方法。SVDD在单分类问题中分类效果比较好,其中超球体单分类支持向量机[5]表现的效果更好,但是超球体单分类SVM缺乏有效的训练算法,所以其在应用中受到限制。在实际问题的解决中,很多分类问题都是包含多个类别的多分类问题,而目前大多数多分类器基本上都是由二分类器组合而成的,当分类类别数达到一定的数量时,这种经二分类器组合而成的多分类器将会遇到诸如样本训练阶段速度较慢的问题。例如在医学图像识别问题中,从图像中提取出来的信息特征量往往比较大,如果直接用二分类器组合而成的多分类器,训练速度相对来说较慢,而文献[6-7]中分别提到的关于多球体支持向量数据描述和多分类支持向量机的基本思想和实现对进一步研究多分类问题提供了帮助。
Wei等[8]提到用级联AdaBoost对标准医学图像数据集进行分类,分类精度达到80.3%,但是训练时间比较长,平均训练时间为40.2s。文献[9]中提到对标准医学图像数据集进行分类的方法,如果只使用ID3进行分类,分类精度为43.3%,只使用K最近邻(KNearest Neighborhood,KNN)分类法进行分类,分类精度为40.3%,而使用ID3和KNN的组合分类器进行分类,分类精度为47.6%。文献[10]中提到对标准医学图像数据集进行分类的方法,用主成分分析(Principal Component Analysis,PCA)和基于规则的粗糙集进行分类,分类精度为69.27%;用B论文导读:后的特征空间内积运算转换为原始空间的核函数计算,从而大大简化了计算量。核主成分分析是一种将原始数据通过非线性变换映射到高维特征空间F的非线性方法,因此在特征空间Φ(xi)(i=1,2,…,l)中存在:上一页12
P(Back Propagation)神经网络进行分类,分类精度为51.51%;用学习向量量化(Learning Vector Quantization, LVQ)神经网络分类器进行分类,分类精度为63.63%。从文献[8]中可以看出分类精度虽然达到80.3%,但是训练速度比较慢;而文献[9-10]中的分类精度比较低。
针对上述问题,本文提出基于超球体多分类支持向量数据描述方法。一些冗余的特征信息不仅会增大分类算法在构建分类模型时的数据量,而且还会影响分类器的分类效果;所以本文提出的超球体多分类支持向量数据描述算法优点在于分类模型建立前期先运用核主成分分析(Kernel Principal Component Analysis,KPCA)来有效地对数据进行降维,然后在构建分类模型时使每一类样本只参与构造一个超球体的训练,以此来直接构造多个SVDD超球体的多分类器,在保证分类精度的基础上有效地提高了训练速度。乳腺X光医学图像标准数据集MIAS(Mammographic Image Analysis Society)[11]分类实验效果表明:与文献[8]相比,超球体多分类SVDD分类器的训练时间减少了10~20s,而且分类精度最高达到7

6.6929%。

1KPCA和SVDD的基本原理

1.1核主成分分析

与传统的主成分分析法(PCA)相比,核主成分分析(Kernel Principal Component Analysis, KPCA)[12]引入核函数方法,通过非线性函数把输入空间映射到高维空间,在特征空间中对数据进行处理,把非线性变换后的特征空间内积运算转换为原始空间的核函数计算,从而大大简化了计算量。
核主成分分析是一种将原始数据通过非线性变换映射到高维特征空间F的非线性方法,因此在特征空间Φ(xi)(i=1,2,…,l)中存在: