垂直搜索引擎框架的设计与实现

摘要	第1-4页
Abstract	第4-7页
第一章绪论	第7-11页
·课题的背景	第7页
·搜索引擎的发展历史	第7-8页
·垂直搜索引擎的特点	第8-9页
·本文的研究工作和组织	第9-11页
第二章垂直搜索引擎的基本原理和相关技术的研究现状	第11-27页
·网络资源的获取技术	第11-14页
·网络爬虫的基本原理	第11页
·垂直搜索引擎中的网络爬虫	第11-12页
·主题判别技术	第12-14页
·网页分析算法	第14-16页
·基于网络拓扑的分析算法	第14-16页
·基于网页内容的网页分析算法	第16页
·基于用户访问行为的网页分析算法	第16页
·全文索引的基本原理	第16-18页
·索引中的内容	第17-18页
·如何创建索引	第18页
·如何对索引进行搜索	第18页
·中文分词技术	第18-25页
·基于字符串匹配的分词方法	第19-20页
·基于理解的分词方法	第20页
·基于统计的分词方法	第20-23页
·基于既定词表的自适应分词方法	第23-24页
·分词中的难题	第24-25页
·本章小节	第25-27页
第三章框架的总体设计	第27-37页
·设计思想	第27-28页
·框架的体系结构	第28-29页
·网络爬虫的设计	第29-33页
·相关概念的定义	第29-31页
·URL 提取器	第31页
·更新去重策略	第31-32页
·多线程抓取	第32-33页
·数据处理器	第33页
·框架的包结构设计	第33-35页
·框架的容错能力	第35页
·框架的资源扩展能力	第35页
·本章小节	第35-37页
第四章框架的实现实例	第37-51页
·系统主题的选择	第37页
·主题 URL 数据库	第37-38页
·URL 提取器	第38页
·数据处理器	第38-40页
·HTML 网页内容的处理	第38-39页
·其他格式文件的处理	第39-40页
·XML 与 properties 属性文件的设置	第40-41页
·索引器	第41-45页
·Lucene 的全文索引的基本原理	第41-42页
·Lucene 的索引创建过程	第42-43页
·Lucene 的索引搜索过程	第43-44页
·Lucene 的包结构	第44页
·中文分词工具	第44-45页
·数据库的选择	第45页
·用户接口的实现	第45-46页
·web 应用程序	第45-46页
·web 应用服务器	第46页
·系统最后的实现界面	第46-49页
·本章小结	第49-51页
第五章总结与展望	第51-53页
·工作总结	第51页
·展望	第51-53页
致谢	第53-55页
参考文献	第55-57页