第1章 引言 | 第1-11页 |
1.1 研究的意义 | 第8页 |
1.2 国内外的研究现状 | 第8-9页 |
1.3 本课题研究的主要内容 | 第9-11页 |
1.3.1 中文WEB文档的自动抓取 | 第9页 |
1.3.2 中文WEB文档的信息加工和提取 | 第9-10页 |
1.3.3 文档自动分类 | 第10-11页 |
第2章 总体设计 | 第11-14页 |
2.1 Fireeye的功能模块 | 第11-12页 |
2.1.1 网络蜘蛛 | 第11页 |
2.1.2 中文分词 | 第11-12页 |
2.1.3 特征选取 | 第12页 |
2.1.4 贝叶斯机器学习及分类 | 第12页 |
2.2 开发平台的选择 | 第12-13页 |
2.3 本课题的创新点 | 第13-14页 |
第3章 网络蜘蛛及WEB文档解析 | 第14-36页 |
3.1 网络蜘蛛的抓取策略 | 第14-15页 |
3.2 Robots协议 | 第15-16页 |
3.3 WEB文档的种类及在信息提取中的价值 | 第16-18页 |
3.4 HTML结构化解析 | 第18-28页 |
3.4.1 超文本标记语言(HTML) | 第18页 |
3.4.2 HTML中的超链接 | 第18-19页 |
3.4.3 HTML解析 | 第19-28页 |
3.5 网络蜘蛛的实现 | 第28-36页 |
第4章 中文分词方法及其实现 | 第36-54页 |
4.1 中文分词概述 | 第36-37页 |
4.2 中文分词方法 | 第37-43页 |
4.2.1 简单扫描匹配法 | 第37-39页 |
4.2.2 扫描及条件决择法 | 第39-41页 |
4.2.3 复杂人工智能方法 | 第41-43页 |
4.3 中文分词的实现 | 第43-54页 |
4.3.1 中文词典 | 第44-52页 |
4.3.2 中文切分 | 第52-54页 |
第5章 特征选取方法的比较与DFTF特征选取算法的实现 | 第54-66页 |
5.1 WEB文本预处理 | 第55-57页 |
5.2 特征选取算法 | 第57-62页 |
5.2.1 文档频度法 | 第58页 |
5.2.2 信息增益值法 | 第58-59页 |
5.2.3 x~2统计法 | 第59页 |
5.2.4 相关信息量 | 第59-60页 |
5.2.5 期望相关信息量 | 第60页 |
5.2.6 词条强度法 | 第60-62页 |
5.3 特征选取法的比较 | 第62页 |
5.4 本课题提出的特征选取算法 | 第62-63页 |
5.5 DFTF特征选取算法的实现 | 第63-66页 |
第6章 基于贝叶斯学习的文档分类器的实现 | 第66-81页 |
6.1 贝叶斯方法 | 第66-67页 |
6.2 贝叶斯方法与文本分类 | 第67-68页 |
6.3 Naive贝叶斯分类器 | 第68-71页 |
6.3.1 Naive贝叶斯方法 | 第68-69页 |
6.3.2 估计概率 | 第69-70页 |
6.3.3 Naive贝叶斯学习与文本分类 | 第70-71页 |
6.4 Naive贝叶斯分类器的实现 | 第71-81页 |
6.4.1 Naive贝叶斯分类器的算法 | 第71-72页 |
6.4.2 贝叶斯分类器的实现 | 第72-81页 |
第7章 结论与展望 | 第81-85页 |
7.1 Web文档分类的质量评价 | 第81-82页 |
7.1.1 分类正确率 | 第81-82页 |
7.1.2 查准率 | 第82页 |
7.1.3 查全率 | 第82页 |
7.2 WEB文档分类实验及其实验结果讨论 | 第82-83页 |
7.3 本课题的研究成果 | 第83页 |
7.4 进一步研究的设想 | 第83-85页 |
参考文献 | 第85-88页 |
致谢 | 第88-89页 |
攻读硕士学位期间发表论文情况 | 第89页 |