公众论坛信息实时检索的研究与实现

摘要	第1-4页
Abstract	第4-8页
1 绪论	第8-11页
·研究背景	第8-9页
·研究现状	第9页
·本文主要工作	第9-10页
·本文结构	第10-11页
2 系统设计	第11-14页
·垂直搜索引擎	第11-12页
·系统结构	第12页
·系统开发环境	第12-13页
·本章小结	第13-14页
3 元搜索引擎	第14-22页
·元搜索引擎的定义	第14-15页
·高级搜索功能分析	第15-16页
·用户界面的实现	第16-17页
·提交查询请求	第17-18页
·搜索结果重新排序	第18-21页
·本章小结	第21-22页
4 网络爬虫的开发	第22-40页
·网络爬虫	第22-24页
·链接选取策略	第24页
·爬虫爬行策略	第24-27页
·深度优先策略	第25页
·广度优先策略	第25-26页
·反向链接数策略	第26页
·本文的策略	第26-27页
·网页去重	第27-30页
·布隆过滤器	第27-28页
·本文的布隆过滤器	第28-30页
·礼貌爬行	第30-33页
·robots协议	第31-32页
·控制爬行压力	第32-33页
·多线程技术	第33-36页
·线程池技术简介	第33-35页
·改进的线程池	第35-36页
·抓取效果	第36-38页
·本章小节	第38-40页
5 提取结构化的文本信息	第40-53页
·从HTML文件中提取结构化文本信息	第40-47页
·开源工具HTMLParser	第40-42页
·标题及时间的提取	第42-44页
·帖子正文信息的提取	第44-47页
·常见格式文件的文本信息提取	第47-52页
·本章小结	第52-53页
6 基于Lucene索引及检索	第53-70页
·全文检索	第53-56页
·倒排索引	第53-54页
·PAT数组模型	第54-55页
·基于邻接矩阵的全文检索模型	第55-56页
·开源工具Lucene	第56-57页
·Lucene分析器	第57-59页
·Lucene的标准分析器	第57-58页
·中文分词	第58-59页
·IKAnalyzer分析器	第59页
·Lucene的索引模块	第59-61页
·Lucene的检索模块	第61-63页
·索引及检索模块的实现	第63-67页
·建立索引	第63-65页
·建立查询接口	第65-67页
·搜索结果	第67-69页
·本章小结	第69-70页
7 总结与展望	第70-72页
致谢	第72-73页
参考文献	第73-76页
附录	第76页