一种可扩展的面向中文主题搜索引擎的研究与设计

摘要	第1-3页
ABSTRACT	第3-8页
第一章绪论	第8-13页
·通用搜索引擎	第8-10页
·通用搜索引擎的发展	第8-10页
·通用搜索引擎的不足	第10页
·主题搜索引擎	第10-11页
·主题搜索引擎的产生	第10-11页
·主题搜索引擎的发展前景	第11页
·主题搜索引擎的实现难点	第11-12页
·本文的主要工作和组织	第12-13页
第二章搜索引擎相关理论	第13-20页
·搜索引擎工作流程	第13-16页
·网页的搜集	第13-14页
·预处理	第14-15页
·查询服务	第15-16页
·实现搜索引擎的关键技术	第16-17页
·搜索引擎评价原则	第17-19页
·评价指标体系	第17-19页
·其他评测因素	第19页
·本章小结	第19-20页
第三章中文WEB 网页的搜集方式	第20-28页
·搜集WEB 信息	第20-21页
·多线程	第21-22页
·搜集策略	第22-23页
·避免搜集镜像网页及更新策略	第23-25页
·避免搜集镜像网页	第23-24页
·更新策略	第24-25页
·网络蜘蛛模型	第25-27页
·网络蜘蛛原理	第25-26页
·网络蜘蛛的体系结构	第26-27页
·效率优化	第27页
·蜘蛛访问规范	第27页
·本章小结	第27-28页
第四章面向主题的网络蜘蛛的设计	第28-38页
·网络蜘蛛功能需求分析	第28页
·主题网页链接发现	第28-30页
·初始种子URL 的更新	第30页
·搜索策略的选择	第30-31页
·抓取主题页面	第31-33页
·正则表达式	第31-32页
·列表网页爬行和抓取	第32页
·全网爬行和抓取	第32-33页
·精确爬行和抓取	第33页
·相应的实验设计	第33-37页
·主题网页链接发现	第33-35页
·主题网页抓取	第35-37页
·抓取能力结果分析	第37页
·指定类型页面解析	第37页
·本章小结	第37-38页
第五章中文WEB 网页预处理	第38-50页
·信息抽取技术概述	第38-39页
·信息抽取的定义	第38页
·信息抽取的研究对象	第38-39页
·信息抽取的评价指标	第39页
·中文WEB 网页解析	第39-42页
·Web 信息抽取	第39-40页
·中文Web 网页解析	第40-42页
·中文分词	第42-45页
·中文分词的应用	第44-45页
·建立倒排索引	第45-46页
·实现结果与分析	第46-49页
·本章小结	第49-50页
第六章查询服务实现	第50-61页
·全文检索工具包LUCENE	第50-53页
·Lucene 简介	第50页
·Lucene 的系统结构	第50-51页
·Lucene 详细结构分析	第51-53页
·索引更新	第53-54页
·重构索引	第53页
·合并索引	第53页
·增量式更新	第53页
·选择合适的索引更新策略	第53-54页
·索引压缩	第54-55页
·LUCENE 与中文分词技术	第55-57页
·正向最大匹配算法中长词屏蔽短词的问题	第55页
·未登录词的识别和处理	第55-56页
·基于词库的Lucene 分词算法	第56-57页
·由字构词的分词方法	第57页
·查询接口实现的关键点	第57-58页
·相关关键字的索引问题	第58页
·增强用户体验的AJAX 技术	第58-60页
·实时搜索建议	第59-60页
·本章小结	第60-61页
第七章结论与展望	第61-62页
·本文的主要工作和贡献	第61页
·下一步的工作和展望	第61-62页
参考文献	第62-64页
致谢	第64-65页
个人简历、在学期间发表的学术论文与研究成果	第65-66页