免费论文查重: 大雅 万方 维普 turnitin paperpass

简述向量基于支持向量机聚类及文本分类

最后更新时间:2024-01-20 作者:用户投稿原创标记本站原创 点赞:21939 浏览:97115
论文导读:势。然而,这一优点也导致了支持向量聚类对簇轮廓比较敏感,受一些稀疏分布且干扰簇轮廓或数据分布结构的噪声数据影响较大。针对传统的支持向量聚类算法因未能有效界定噪声数据点和孤立点而允许噪声数据点参与对偶不足求解,降低了训练阶段的效率、影响了算法对数据分布结构探讨的有效性等不足,本论文首次以分布特点和簇隶属联
摘要:随着大数据(Big Data)时代的来临,互联网上分布、流动并急剧膨胀的不仅有多样化运用所产生的具有可用性、有效性的内容资源,还充斥着大量干扰正常业务、侵犯隐私、误导公众甚至危害社会稳定并同样多样化的信息和行为。以数据管理的角度,有必要根据不同行业、领域用户的需要,快速、高效地组织、浅析、提取并分级保护有用的数据或敏感信息;而以内容安全的角度,人们更期待能够对正在或即将泄露的敏感信息进行检测和保护,对有着虚假、恶意或诱导意图的内容或行为进行分类、过滤和浅析,以便及时地发现攻击源、保护受害者,同时调动智能防御系统进行数据处理、知识学习和模型更新。在众多机器学习策略中,聚类浅析(无监督学习)和分类(有监督学习)被认为是快速、准确地发现、定位、组织和浅析具有特定用途的可用信息和行为方式,实现信息安全保护效率最大化的有效途径和关键技术。作为一种基于统计学习论述的机器学习策略,支持向量机不仅具有优秀的小样本学习能力,而且较好地解决了非线性、高维度、局部极小值等不足。它既能通过构造闭合分界面来进行无监督的数据聚类浅析,又可以通过构造非闭合分界面来处理有监督的数据分类不足,尤其适于处理高维、稀疏且特点之间具有较大相关性的文本数据,因而具有高效地解决前述以数据管理和内容安全为目的数据浅析不足的优秀品质。然而,当样本规模较大、维数较高、类别数较多、分布不规则且有着噪声数据干扰时,传统的基于支持向量机的聚类浅析模型有着训练速度较慢、参数敏感且难以找到合适的簇原型来提升簇标定的效率和准确率等不足;作为互联网信息有着的主要形式,文本数据通常具有前述特点,并且会以降低数据可分性的方式影响基于支持向量机的文本分类系统性能,包括降低训练和分类速度、准确率以及收集到的支持向量样本的指示作用等。为了解决这些不足,本论文的主要探讨内容及革新工作可归纳如下:(1)针对支持向量聚类算法兼具边界聚类与原型查找聚类的特点,以参数选择、对偶不足求解及簇标定对策等方面浅析并总结了影响支持向量聚类算法性能的关键理由及可行的改善方向,并在浅析了核函数宽度q与簇的分裂/合并方式之间的联系之后,提出了通过二分查找法快速定位簇规模稳定时的q值来同时取得最优参数和最佳聚类结果。(2)作为基于边界的聚类策略,能够对具有任意形状或不规则簇轮廓的数据集进行高效率的聚类是支持向量聚类算法相对于其他算法的一大优势。然而,这一优点也导致了支持向量聚类对簇轮廓比较敏感,受一些稀疏分布且干扰簇轮廓或数据分布结构的噪声数据影响较大。针对传统的支持向量聚类算法因未能有效界定噪声数据点和孤立点而允许噪声数据点参与对偶不足求解,降低了训练阶段的效率、影响了算法对数据分布结构探讨的有效性等不足,本论文首次以分布特点和簇隶属联系的角度给出了噪声数据的定义,并提出了一种无监督的噪声消除算法。利用该算法,可在数据进入对偶不足求解之前的输入空间快速地移除噪声数据,避开了一部分无作用的特点空间映射操作,降低了聚类算法对核矩阵的存储空间要求,并且可在不对数据集的分布结构或簇轮廓造成任何负面影响的前提下,为提升支持向量聚类算法的效率提供帮助。(3)寻找合适的簇原型是提升支持向量聚类算法效率的主要途径之一。传统的支持向量聚类算法或者利用支持向量分组作为簇原型,或者将其转换为单簇单原型的不足。前者在处理大规模高维数据时效率较低,后者得到的簇原型对结构不规则或内部样本分布不均匀的簇的指代效果不理想,并可能降低簇标定的准确率。针对这一不足,本论文提出了一种单簇多个簇原型,并且每个簇原型同时利用形状质心和密度质心进行指代的双质心支持向量聚类(Double Centroids Support Vector Clustering,简称DBC)算法。以原理上看,DBC算法是前两种传统模型的折中,特点是能允许在不规则的簇内部自适应地分布多对簇原型。大量的实验表明,DBC算法不仅继承了经典支持向量聚类算法对不规则簇轮廓的识别能力,而且还可发现簇内样本的分布均匀程度、显著提升簇标定的效率和准确率,同时双质心具有较强的簇指代能力,可用于大规模数据的浅析。(4)簇标定算法与簇原型的查找或生成方式有着紧密的联系。探讨发现,当前的支持向量聚类算法在通过对簇原型点对之间的线段抽样完成组件连接性判定时,利用了大量的冗余点对和采样点,严重影响了簇标定效率却没能带来准确率的提升。针对这一不足,本论文提出一种基于凸分解的簇标定(Convex Decomposition based Cluster Labepng,简称CDCL)算法,该算法属于单簇多个簇原型案例的变体,其最大特点是不再通过已有的或者优化生成的单一样本作为簇原型,而是能够根据簇结构的不同,自适应地将其分解为一定数量、不同形状和大小的凸包来作为簇原型利用。本论文还详细浅析并定义了以凸包为簇原型时影论文导读:
响凸包连接性判断的关键因素—准支持向量,并将簇的连接性浅析转换为最近邻凸包之间的连接性判断不足,通过构造最大概率穿越准支持向量密集区域的采样线段来避开抽样点对的冗余。另外,本论文还提出了一种与凸分解模型相匹配的非线性抽样序列生成方式来最大程度避开点对之间的冗余采样,降低实际的平均抽样频率。大量实验表明,本论文所提出的CDCL算法不仅提升了簇标定的效率,并且对参数设置不敏感,能显著提升标定的准确率。(5)探讨表明,对于以构造特点空问的最小包含超球体和支持函数为目的的支持向量聚类而言,那些簇轮廓内部的样本、外部的孤立点及噪声数据点都是不必要的,它们的有着只会增加存储空间的占用,降低训练效率。为此,本论文提出一种快速的支持向量聚类(Fast Algorithm of Support Vector Clustering,简称FASVC)算法。该算法先在数据输入空间直接提取簇轮廓(或边界)样本来构造超球体、提取支持向量并完成支持函数的构造,然后采取一种自适应的簇标定对策,根据所构造的超球体半径R是否大于1来选择利用基于凸分解或圆锥的簇标定算法。由于FASVC算法高度约简了求解优化不足的规模,并且所采取的自适应簇标定对策不会增加优化不足的约束条件,可大幅度地提升聚类浅析历程的存储空间利用率和运转时间效率,故而非常适合在存储空间受限的情况下实施大规模的数据浅析。另外,算法还与惩罚因子C无关,并对其他参数设置不敏感。实验证明,本论文所提出的FASVC算法能高效地处理文本聚类和P2P流量分类不足。(6)在文本分类领域,支持向量机是公认最好的分类器之一。由于基于结构化风险最小化原理,利用支持向量机进行文本分类的性能与数据的可分性(即不同类别样本之间的分类间隔)直接相关,由此寻找最合适的增强数据集可分性的文本表示策略是提升文本分类性能的关键。探讨表明,文本向量化表示历程实际上是对文本信息进行压缩的历程,因而最大程度的信息保留对提升文本分类性能作用重大。然而,目前主流的文本表示案例则因有着“单一的文档频率依赖”、“特点权重量化的全局对策”及“忽略文本结构的作用”等不足导致大量重要信息在文本向量化历程中被丢失,影响了数据的可分性。针对这些不足,本论文以多个角度提出了不同的性能提升案例。1)首先,本论文定义了特点的类别贡献度的概念,并提出兼顾“类别贡献度”与“类间区分能力”相结合的案例(Category Contribution Enhanced,简称CCE)来避开文本特点量化时对单一文档频率的依赖。2)其次,本论文设计了自适应的文本块划分算法,以此为基础可进行文本块分布重要量的描述,并将其作为结构信息嵌入到不同的特点中。3)然后,本论文还定义了特点的类别倾向和类别偏好的概念,并基于此提出了融合多类别倾向的特点类间区分能力强化案例;在将该案例与CCE权重案例、文本块分布重要量描述相结合后构建了一种融合多类别倾向的文本向量化(co-contributions of terms on class tendency for vectorizing text,简称C2TCTVT)算法,该算法不仅保留了那些因遵循“全局对策”而丢失的特点类别倾向的分布信息,而且实现了将文本向量以高维、稀疏到低维、稠密的高度压缩,并且所得到的低维向量还保留了文本的多类别倾向信息、提升了数据可分性和支持向量样本的指代价值;基于该算法框架可在显著提升文本分类效率的同时获得与传统策略相当的分类性能。4)最后,作为对特点的局部重要量的改善,本论文还提出了两组嵌入文本块重要量分布信息的特点频率案例,该案例可替代传统的特点频率案例,在结合CCE案例后可显著提升基于支持向量机的文本分类性能。关键词:内容安全论文支持向量机论文聚类浅析论文支持向量聚类论文文本分类论文
本论文由www.7ctime.com,需要论文可以联系人员哦。摘要4-8
ABSTRACT8-18
符号说明18-20
第一章 绪论20-33

1.1 引言20-21

1.2 机器学习论述21-22

1.2.1 无监督学习21-22

1.2.2 有监督学习22

1.2.3 半监督学习22

1.2.4 增强学习22

1.3 支持向量机与聚类浅析22-25

1.4 支持向量机与文本分类25-28

1.5 本论文的主要工作28-30

1.6 本论文的组织结构30-33

第二章 支持向量机技术基础33-59

2.1 引言33

2.2 统计学习论述33-35

2.3 支持向量机技术35-48

2.3.1 支持向量分类机35-39

2.3.2 L2-支持向量机39-40

2.3.3 多类不足的决策策略40-42

2.3.4 支持向量回归机论文导读:描述683.4DBC时间性能浅析68-703.5聚类实验浅析70-773.5.1数据集703.5.2实验比较算法703.5.3噪声数据消除实验70-713.5.4DBC聚类效果测试71-743.5.5DBC整体性能测试74-773.5.6DBC模型的半监督运用测试773.6本章小结77-79第四章基于凸分解的簇标定算法79-100

4.1引言79-802基于凸分解的簇标定算法80-912.1簇在

模型42-43

2.3.5 支持向量机探讨近况43-48

2.4 支持向量聚类48-58

2.4.1 支持向量聚类模型48-50

2.4.2 影响支持向量聚类的关键因素50-58

2.5 本章小结58-59

第三章 双质心支持向量聚类59-79

3.1 引言59-61

3.2 噪声数据点消除对策(NE)61-63

3.

2.1 噪声数据分布结构浅析61-62

3.

2.2 噪声数据消除算法62-63

3.3 双质心簇标定对策(DBC)63-68

3.1 簇的分解对策63-65

3.2 单组件双质心的构造65-67

3.3 成员联系的判定规则67-68

3.4 算法描述68

3.4 DBC时间性能浅析68-70

3.5 聚类实验浅析70-77

3.5.1 数据集70

3.5.2 实验比较算法70

3.5.3 噪声数据消除实验70-71

3.5.4 DBC聚类效果测试71-74

3.5.5 DBC整体性能测试74-77

3.5.6 DBC模型的半监督运用测试77

3.6 本章小结77-79

第四章 基于凸分解的簇标定算法79-100

4.1 引言79-80

4.2 基于凸分解的簇标定算法80-91

4.

2.1 簇在特点空间中的凸性质80-81

4.

2.2 支持超凸多面体的凸分解81-87

4.

2.3 凸包的标定算法87-91

4.

2.4 标定非凸包样本91

4.3 CDCL算法时间性能浅析91-92

4.4 聚类实验浅析92-99

4.1 数据集93

4.2 实验比较算法93

4.3 CDCL算法适应能力浅析93-95

4.4 CDCL算法整体性能测试95-99

4.5 本章小结99-100

第五章 快速支持向量聚类算法100-121

5.1 引言100-101

5.2 快速支持向量聚类算法(FASVC)101-109

5.

2.1 选择簇边界样本101-102

5.

2.2 构造超球面102-106

5.

2.3 自适应的簇标定对策106-107

5.

2.4 FASVC算法的实现107-109

5.3 FASVC时间性能及特点浅析109-110
5.

3.1 FASVC时间性能浅析109

5.

3.2 FASVC算法特点109-110

5.4 聚类实验浅析110-120
5.

4.1 数据集111

5.

4.2 实验比较算法111

5.

4.3 FASVC参数敏感性测试111-112

5.

4.4 FASVC算法整体性能测试112-118

5.

4.5 利用FASVC进行文本聚类118-119

5.

4.6 利用FASVC识别P2P流量119-120

5.5 本章小结120-121
第六章 基于支持向量机的多方式文本分类探讨121-150

6.1 引言121-122

6.2 文本表示的关键不足与启迪122-127

6.

2.1 场景一:特点的文档频率之外的信息123-124

6.

2.2 场景二:最大值保留的特点权重与特点的多类别分布信息124-125

6.

2.3 场景三:文本的结构信息125-127

6.3 基于支持向量机的多方式文本分类案例127-132
6.

3.1 自适应的文本块划分算法127

6.

3.2 兼顾类别贡献度和类间区分度的特点权重案例127-129

6.

3.3 融合多类别倾向的特点类间区分能力强化案例129-130

6.

3.4 基于文本块重要量分布加权的特点频率案例130-132

6.4 分类实验浅析132-148
6.

4.1 数据集132

6.

4.2 实验比较案例132-135

6.

4.3 评价指标135-136

6.

4.4 CCE案例实验结果与浅析136-139

6.

4.5 C2TCTVT算法框架实验结果与浅析139-145

6.

4.6 NWET与N2WET组合案例实验结果与浅析145-148

6.5 本章小结148-150
第七章 工作总结与展望150-154

7.1 本论文探讨工作总结150-152

7.2 探讨工作展望152-154

参考文献154-176
致谢176-178
攻读学位期间学术成果目录178-179