面向主题的双约束网页采集方法的研究和实现

摘要	第1-6页
ABSTRACT	第6-10页
第一章绪论	第10-16页
·研究背景及意义	第10-11页
·国内外研究现状	第11-15页
·本文内容及组织结构	第15-16页
第二章搜索引擎概述	第16-28页
·通用搜索引擎	第16-22页
·通用搜索引擎的工作原理	第17-20页
·通用搜索引擎的分类	第20-22页
·主题搜索引擎	第22-27页
·主题搜索引擎的工作原理	第22-26页
·主题搜索引擎的区别及优势	第26-27页
·本章小结	第27-28页
第三章主题特征模型的研究	第28-42页
·主题特征模型	第28-37页
·文本表示模型	第29-32页
·文本特征选取	第32-33页
·主题分类	第33-35页
·主题特征模型	第35-36页
·主题特征模型的建立及更新	第36-37页
·主题网页识别	第37-41页
·主题网页模型	第37-38页
·分类算法	第38-41页
·主题网页识别算法	第41页
·本章小结	第41-42页
第四章面向主题的网页采集方法的研究和实现	第42-50页
·主题页面特征	第42-43页
·Hub 特征	第42页
·Linkage/Sibling Locality 特征	第42-43页
·站点主题特征	第43页
·Tunnel 特征	第43页
·主题网络爬虫相关策略和算法	第43-47页
·基于网页内容的启发式方法	第44-46页
·基于Web 超链结构的方法	第46-47页
·基于双约束的网页采集方法	第47-49页
·本章小结	第49-50页
第五章实验及结果分析	第50-53页
·性能评价指标	第50-51页
·实验比较与分析	第51-53页
参考文献	第53-55页
致谢	第55-57页
攻读硕士学位期间已发表或录用的论文	第57-59页