摘要 | 第1-6页 |
Abstract | 第6-13页 |
第一章 绪论 | 第13-16页 |
·问题的来源 | 第13-14页 |
·研究目的 | 第14页 |
·本文的主要工作 | 第14页 |
·本文创新点 | 第14-15页 |
·全文章节安排 | 第15-16页 |
第二章 文本挖掘技术概述 | 第16-22页 |
·文本挖掘技术的含义 | 第16页 |
·数据挖掘 | 第16页 |
·文本挖掘 | 第16页 |
·Web文本挖掘 | 第16-17页 |
·文本挖掘的方法 | 第17-20页 |
·文本的特征表示 | 第17页 |
·文本的特征子集的选取 | 第17-18页 |
·文本分类 | 第18-19页 |
·文本聚类 | 第19-20页 |
·文本挖掘模型 | 第20-21页 |
·挖掘的应用前景 | 第21页 |
·本章小结 | 第21-22页 |
第三章 中文分词算法研究及其实现 | 第22-37页 |
·中文词语切分的方法 | 第22-24页 |
·基于字符串匹配的分词方法 | 第22-23页 |
·基于理解的分词方法 | 第23页 |
·基于统计的分词方法 | 第23-24页 |
·分词中的两大难题 | 第24-25页 |
·歧义识别 | 第24-25页 |
·新词识别 | 第25页 |
·歧义消除算法研究 | 第25-28页 |
·一种简单的歧义消除法 | 第25-27页 |
·改进的消除歧义算法 | 第27-28页 |
·分词词典数据库的设计 | 第28-30页 |
·分词的效率分析 | 第30-32页 |
·分词速度测试及其分析 | 第31页 |
·分词精度测试及其分析 | 第31-32页 |
·未登录词识别的学习研究 | 第32-33页 |
·未登录词的识别策略 | 第32页 |
·数字的识别 | 第32-33页 |
·对比其他分词程序 | 第33-36页 |
·中科院ICTCLAS | 第33-34页 |
·海量分词研究版 | 第34页 |
·性能比较 | 第34-36页 |
·本章小结 | 第36-37页 |
第四章 文本特征选择方法的研究与设计 | 第37-50页 |
·特征选择模型的建立 | 第37-38页 |
·矢量空间模型VSM | 第37-38页 |
·布尔模型 | 第38页 |
·几种常见特征选择方法 | 第38-41页 |
·文档频率DF(Document Frequency) | 第38页 |
·信息增益IG(Information Gain) | 第38-39页 |
·互信息MI(Mutual Information) | 第39页 |
·X~2统计CHI(Chi-square, CHI) | 第39-40页 |
·期望交叉熵ECE(Expected Cross Entropy) | 第40页 |
·文本证据权(the Weight of Evidence for Text) | 第40页 |
·信息增益与互信息相结合 | 第40-41页 |
·改进后的特征选择系统设计 | 第41-45页 |
·文本预处理 | 第42页 |
·统计词频以及文档频率 | 第42-43页 |
·计算信息增益以及互信息的值 | 第43-44页 |
·特征向量的获取 | 第44页 |
·计算和提取文本类的特征向量 | 第44-45页 |
·语料库及数据库的建设 | 第45-46页 |
·语料库 | 第45页 |
·数据库 | 第45-46页 |
·测试、比较及分析 | 第46-49页 |
·特征选择准确度对比及分析 | 第48-49页 |
·本章小结 | 第49-50页 |
第五章 基于向量空间模型(VSM)文本分类技术研究及实现 | 第50-61页 |
·文本分类简介 | 第50页 |
·文本分类的常用方法 | 第50-52页 |
·KNN方法 | 第51页 |
·概率模型 | 第51页 |
·最小二乘拟合方法(LLSF)和支持向量机(SVM) | 第51页 |
·非线性模型可以分为层次模型和网络模型 | 第51-52页 |
·组合模型 | 第52页 |
·基于特征依赖性算法 | 第52页 |
·采用KNN方法实现文本分类 | 第52-54页 |
·分类器原理 | 第53-54页 |
·KNN(K最近邻居)算法描述 | 第54页 |
·改进权重和K近邻方法相结合的文本自动分类方法 | 第54-56页 |
·经典权重计算方法 | 第54-55页 |
·改进的权重计算公式涉及的两个概念 | 第55页 |
·改进的权重计算公式 | 第55-56页 |
·改进后的分类系统设计 | 第56-58页 |
·训练集文本预处理 | 第56页 |
·特征词的统计及选择 | 第56-57页 |
·构造分类器 | 第57页 |
·待分类文本特征表示 | 第57-58页 |
·分类输出 | 第58页 |
·分类评价方法 | 第58-59页 |
·实验结果及分析 | 第59-60页 |
·实验过程 | 第59页 |
·结果及分析 | 第59-60页 |
·本章小结 | 第60-61页 |
第六章 总结与展望 | 第61-64页 |
·本文主要工作 | 第61-63页 |
·下一步的研究工作 | 第63-64页 |
参考文献 | 第64-66页 |
在学期间撰写的论文 | 第66页 |
在学期间参加的科研项目 | 第66页 |