第一章 引言 | 第1-12页 |
1.1 课题的研究背景和意义 | 第8-9页 |
1.2 课题研究现状 | 第9-10页 |
1.3 研究课题的来源和主要研究目的 | 第10页 |
1.4 本文的内容 | 第10-12页 |
1.4.1 研究内容 | 第10-11页 |
1.4.2 本文的组织 | 第11-12页 |
第二章 文献综述 | 第12-18页 |
2.1 Web挖掘简介 | 第12-13页 |
2.1.1 Web挖掘的定义 | 第12页 |
2.1.2 Web挖掘的分类 | 第12-13页 |
2.1.3 Web挖掘面临的问题 | 第13页 |
2.2 Web文本挖掘(Web Text Mining)概述 | 第13-15页 |
2.2.1 Web文本挖掘的分类 | 第14-15页 |
2.2.2 文本挖掘和数据挖掘的关系 | 第15页 |
2.3 文本自动分类技术 | 第15-18页 |
2.3.1 问题描述 | 第15-16页 |
2.3.2 文本自动分类系统的类别 | 第16页 |
2.3.3 文本分类中计算机和人类学习过程的异同 | 第16-18页 |
第三章 Web文本挖掘模型和相关技术 | 第18-27页 |
3.1 Web文本挖掘的处理模型 | 第18-19页 |
3.2 自动分词技术 | 第19-22页 |
3.2.1 自动分词算法分类 | 第19-20页 |
3.2.2 本模型应用的分词算法 | 第20-22页 |
3.3 特征表示与提取 | 第22-27页 |
3.3.1 项的选择 | 第22-23页 |
3.3.2 特征提取方法 | 第23-24页 |
3.3.3 Web网页的特征词条的获得 | 第24-25页 |
3.3.4 特征项的权重 | 第25-27页 |
第四章 聚类算法 | 第27-42页 |
4.1 相似性度量 | 第27-28页 |
4.2 聚类方法的类别 | 第28-29页 |
4.3 类的定义 | 第29-30页 |
4.4 本模型中的三种聚类方法 | 第30-42页 |
4.4.1 改进的k-means聚类算法 | 第30-32页 |
4.4.2 基于高维稀疏数据的改进的 Bisect k-means 算法--HSMBK (Highdimension Sparse Modified Bisect k-means) | 第32-37页 |
4.4.2.1 传统Bisectk-means算法 | 第32-33页 |
4.4.2.2 高维稀疏聚类 | 第33-35页 |
4.4.2.2.1 问题概述 | 第34页 |
4.4.2.2.2 布尔稀疏特征的概念 | 第34页 |
4.4.2.2.3 稀疏相似性的计算 | 第34-35页 |
4.4.2.3 聚簇中心的计算 | 第35-36页 |
4.4.2.4 判断k的标准-JW准则 | 第36-37页 |
4.4.2.5 HSMBK聚类算法的步骤 | 第37页 |
4.4.3 基于高维稀疏数据的快速聚类算法——HSSCA(HighdimensionSparseSwiftClusteringAlgorithm) | 第37-42页 |
4.4.3.1 差异度的计算方法 | 第38页 |
4.4.3.2 稀疏特征向量 | 第38-39页 |
4.4.3.3 HSSCA算法的步骤 | 第39-42页 |
第五章 SVM理论基础 | 第42-51页 |
5.1 统计学习理论 | 第42-45页 |
5.1.1 机器学习的基本问题表示 | 第42页 |
5.1.2 经验风险最小化 | 第42-43页 |
5.1.3 VC维 | 第43页 |
5.1.4 推广性的界 | 第43-44页 |
5.1.5 结构风险最小化原理 | 第44-45页 |
5.2 线性支持向量机 | 第45-48页 |
5.2.1 线性可分情况 | 第45-48页 |
5.2.2 软边缘 | 第48页 |
5.3 非线性支持向量机 | 第48-50页 |
5.4 支持向量机的特点 | 第50-51页 |
第六章 中文文本分类算法 | 第51-57页 |
6.1 C-SVC(C-support vector classification) | 第51-55页 |
6.1.1 问题描述 | 第51-52页 |
6.1.2 分类函数参数的确定(学习过程) | 第52-55页 |
6.1.2.1 两个拉格朗日乘子的优化 | 第53-54页 |
6.1.2.2 两个待优化拉格朗日乘子的选择策略 | 第54页 |
6.1.2.3 阀值b的计算 | 第54-55页 |
6.2 V-SVC | 第55-56页 |
6.3 多类分类问题的处理 | 第56-57页 |
第七章 系统设计与实验测试 | 第57-65页 |
7.1 系统的具体实现 | 第57-59页 |
7.1.1 开发环境 | 第57页 |
7.1.2 系统模型 | 第57页 |
7.1.3 分类器模型的构造过程之比较 | 第57-59页 |
7.2 试验测试 | 第59-60页 |
7.2.1 训练集和测试集的划分 | 第59页 |
7.2.2. 模型质量评估 | 第59-60页 |
7.3 聚类算法的测试 | 第60-63页 |
7.4 SVM中采用不同的核函数和参数的测试结果。 | 第63-65页 |
结束语 | 第65-67页 |
1. 本文的主要研究成果和创新点 | 第65-66页 |
2. 存在的问题和对未来工作的展望 | 第66-67页 |
参考文献 | 第67-69页 |
致谢 | 第69-70页 |
附录A | 第70-73页 |
个人简历、在校期间的研究成果及发表的学术论文 | 第73页 |