网页信息提取与净化的研究

内容提要	第1-7页
第一章前言	第7-11页
·研究意义	第7-8页
·搜索引擎介绍	第8-10页
·正文提取的重要性	第10页
·小结	第10-11页
第二章正文提取	第11-43页
·正文提取的几种方法介绍	第11-18页
·基于DOM 树的正文提取	第18-21页
·正文提取器功能介绍	第21-25页
·正文提取器实现	第25-39页
·结果分析	第39-42页
·小结	第42-43页
第三章网页净化噪声	第43-48页
·网页噪声净化的几种常用方法	第43-44页
·基于DOM 树的网页噪声净化	第44-46页
·数据分析	第46-47页
·小结	第47-48页
第四章网页分类	第48-53页
·文本分类介绍	第48页
·网页分类的几个研究方向	第48-50页
·网页分类的改进方法	第50-52页
·小结	第52-53页
第五章总结与展望	第53-55页
·全文总结	第53-54页
·进一步的工作	第54-55页
参考文献	第55-57页
摘要	第57-60页
ABSTRACT	第60-63页
致谢	第63页