面向主题的搜索引擎的设计与实现

摘要	第1-5页
ABSTRACT	第5-9页
第一章绪论	第9-13页
·搜索引擎技术概述	第9页
·搜索引擎的概念	第9页
·搜索引擎的工作原理	第9页
·搜索引擎的分类	第9-10页
·全文搜索引擎	第9-10页
·目录索引型搜索引擎	第10页
·元搜索引擎	第10页
·面向主题的搜索引擎的提出	第10-11页
·国内外发展	第11页
·论文的组织结构	第11-13页
第二章面向主题的搜索引擎	第13-20页
·通用搜索引擎的架构	第13-14页
·网络爬虫策略	第14-15页
·宽度优先搜索算法	第14-15页
·深度优先搜索算法	第15页
·主题搜索引擎的关键技术	第15-17页
·主题描述	第15页
·网页相关度判定	第15-16页
·HTML解析	第16页
·中文分词技术	第16页
·提取关键词	第16-17页
·系统分析与设计	第17-18页
·系统分析	第17-18页
·系统设计	第18页
·本章小结	第18-20页
第三章主题相关性验证	第20-27页
·主题描述	第20-21页
·网页相关性判定	第21-26页
·基于元数据的判断	第22-23页
·基于链接标签数据的判断	第23页
·基于链接结构的判断	第23-24页
·基于页面语义内容的判定	第24页
·比较分析	第24页
·页面相关度判定算法选择及改进	第24-26页
·本章小结	第26-27页
第四章网页解析	第27-46页
·HTML介绍	第27-29页
·HTML概念	第27页
·HTML解析	第27-28页
·HtmlParser介绍	第28-29页
·网页信息抽取	第29-35页
·获取网页编码	第29-31页
·获取网页链接	第31-34页
·元数据解析	第34-35页
·获取网页正文	第35页
·中文分词技术	第35-43页
·中文分词方法介绍	第35-36页
·机械匹配方法	第36-43页
·提取关键字	第43-44页
·分析网页内容结构加权	第43-44页
·本章小结	第44-46页
第五章系统实现	第46-56页
·主题搜索引擎的爬虫策略	第46-48页
·初始URL	第47页
·URL队列	第47页
·网页信息抽取	第47-48页
·保存网页信息	第48页
·建立索引	第48-50页
·索引工具Lucence介绍	第48-49页
·Lucene的数据结构分析	第49页
·设计索引库	第49页
·创建索引库	第49-50页
·Web服务	第50-52页
·基于Tomcat的Web服务器	第50页
·服务端设计	第50-51页
·客户端设计	第51-52页
·结果分析	第52-55页
·单次抓取结果分析	第52-54页
·多次抓取结果分析	第54-55页
·本章小结	第55-56页
第六章结束语	第56-58页
·主要工作回顾	第56-57页
·本课题今后需进一步研究的地方	第57-58页
参考文献	第58-61页
个人简历在读期间发表的学术论文	第61-62页
致谢	第62页