中文WEB文档自动分类的研究与实现

第1章引言	第1-11页
1．1 研究的意义	第8页
1．2 国内外的研究现状	第8-9页
1．3 本课题研究的主要内容	第9-11页
1．3．1 中文WEB文档的自动抓取	第9页
1．3．2 中文WEB文档的信息加工和提取	第9-10页
1．3．3 文档自动分类	第10-11页
第2章总体设计	第11-14页
2．1 Fireeye的功能模块	第11-12页
2．1．1 网络蜘蛛	第11页
2．1．2 中文分词	第11-12页
2．1．3 特征选取	第12页
2．1．4 贝叶斯机器学习及分类	第12页
2．2 开发平台的选择	第12-13页
2．3 本课题的创新点	第13-14页
第3章网络蜘蛛及WEB文档解析	第14-36页
3．1 网络蜘蛛的抓取策略	第14-15页
3．2 Robots协议	第15-16页
3．3 WEB文档的种类及在信息提取中的价值	第16-18页
3．4 HTML结构化解析	第18-28页
3．4．1 超文本标记语言(HTML)	第18页
3．4．2 HTML中的超链接	第18-19页
3．4．3 HTML解析	第19-28页
3．5 网络蜘蛛的实现	第28-36页
第4章中文分词方法及其实现	第36-54页
4．1 中文分词概述	第36-37页
4．2 中文分词方法	第37-43页
4．2．1 简单扫描匹配法	第37-39页
4．2．2 扫描及条件决择法	第39-41页
4．2．3 复杂人工智能方法	第41-43页
4．3 中文分词的实现	第43-54页
4．3．1 中文词典	第44-52页
4．3．2 中文切分	第52-54页
第5章特征选取方法的比较与DFTF特征选取算法的实现	第54-66页
5．1 WEB文本预处理	第55-57页
5．2 特征选取算法	第57-62页
5．2．1 文档频度法	第58页
5．2．2 信息增益值法	第58-59页
5．2．3 x~2统计法	第59页
5．2．4 相关信息量	第59-60页
5．2．5 期望相关信息量	第60页
5．2．6 词条强度法	第60-62页
5．3 特征选取法的比较	第62页
5．4 本课题提出的特征选取算法	第62-63页
5．5 DFTF特征选取算法的实现	第63-66页
第6章基于贝叶斯学习的文档分类器的实现	第66-81页
6．1 贝叶斯方法	第66-67页
6．2 贝叶斯方法与文本分类	第67-68页
6．3 Naive贝叶斯分类器	第68-71页
6．3．1 Naive贝叶斯方法	第68-69页
6．3．2 估计概率	第69-70页
6．3．3 Naive贝叶斯学习与文本分类	第70-71页
6．4 Naive贝叶斯分类器的实现	第71-81页
6．4．1 Naive贝叶斯分类器的算法	第71-72页
6．4．2 贝叶斯分类器的实现	第72-81页
第7章结论与展望	第81-85页
7．1 Web文档分类的质量评价	第81-82页
7．1．1 分类正确率	第81-82页
7．1．2 查准率	第82页
7．1．3 查全率	第82页
7．2 WEB文档分类实验及其实验结果讨论	第82-83页
7．3 本课题的研究成果	第83页
7．4 进一步研究的设想	第83-85页
参考文献	第85-88页
致谢	第88-89页
攻读硕士学位期间发表论文情况	第89页