大规模Web文本快速分类关键技术研究

摘要	第5-6页
abstract	第6页
第1章绪论	第10-14页
1.1 课题研究背景	第10-11页
1.2 课题国内外研究现状	第11-12页
1.3 研究内容与组织结构	第12-14页
第2章理论知识与关键技术概述	第14-28页
2.1 引言	第14页
2.2 网页正文文本提取算法	第14-17页
2.2.1 Html页面组成结构的特点	第14-15页
2.2.2 基于去除html标签的正文选取算法	第15页
2.2.3 基于DOM树的正文提取算法	第15-16页
2.2.4 基于视觉区域的正文提取算法	第16-17页
2.3 网页正文相似度计算算法	第17-19页
2.3.1 I-Match算法	第17-18页
2.3.2 Shingling算法	第18-19页
2.3.3 SpotSig算法	第19页
2.4 网页正文文本分类算法	第19-25页
2.4.1 文本分类相关概念	第19-20页
2.4.2 文本分类基本处理流程	第20-21页
2.4.3 文本预处理项目	第21页
2.4.4 经典文本特征选择方法	第21-22页
2.4.5 文本向量化模型	第22-23页
2.4.6 经典文本分类算法	第23-25页
2.5 基于HADOOP的MAPREDUCE并行原理	第25-27页
2.5.1 作业角色	第25-26页
2.5.2 编程模型	第26-27页
2.6 本章小结	第27-28页
第3章基于最长连续串的正文提取算法	第28-38页
3.1 相关定义和概念	第28-29页
3.2 内容提取基本原理	第29-31页
3.3 多正文网页的处理	第31-33页
3.4 实验结果与分析	第33-37页
3.4.1 实验环境	第33页
3.4.2 最大连续子串正文选取算法实验	第33-37页
3.5 本章小结	第37-38页
第4章基于局部有序的SIMHASH去重算法	第38-49页
4.1 引言	第38页
4.2 SIMHASH算法分析	第38-40页
4.3 SIMHASH算法的局部有序改进	第40-42页
4.4 改进SIMHASH算法的并行化	第42-44页
4.5 实验结果与分析	第44-48页
4.5.1 实验环境	第44-45页
4.5.2 局部有序的Simhash算法性能对比实验	第45-46页
4.5.3 局部有序的Simhash算法的并行化实验	第46-48页
4.6 本章小结	第48-49页
第5章基于倒排加速的NB分类并行化算法	第49-77页
5.1 引言	第49-50页
5.2 适用于NB算法的倒排加速结构	第50-56页
5.2.1 倒排索引的结构设计	第50-52页
5.2.2 倒排结构的并行化构建算法	第52-56页
5.3 文本预处理并行化	第56-58页
5.4 文本特征选择并行化	第58-60页
5.5 文本向量表示并行化	第60-63页
5.6 应用倒排加速的NB文本分类算法	第63-66页
5.6.1 NB算法的剪枝优化	第63-64页
5.6.2 应用倒排结构的NB算法及其并行化	第64-66页
5.7 实验结果与分析	第66-76页
5.7.1 实验环境	第66页
5.7.2 倒排索引构建效率实验	第66-68页
5.7.3 倒排索引查询效率实验	第68-69页
5.7.4 倒排索引增量更新实验	第69-70页
5.7.5 文本分类算法对比实验	第70-71页
5.7.6 基于倒排索引的文本分类实验	第71-72页
5.7.7 文本分类剪枝优化实验	第72-75页
5.7.8 文本分类并行化效率实验	第75-76页
5.8 本章小结	第76-77页
结论	第77-79页
参考文献	第79-82页
攻读硕士学位期间发表的论文和取得的科研成果	第82-83页
致谢	第83页