垂直搜索引擎的研究
摘要 | 第1-5页 |
ABSTRACT | 第5-9页 |
第1章 绪论 | 第9-11页 |
·研究的背景和意义 | 第9页 |
·国内外的发展情况 | 第9-10页 |
·本文的主要工作和组织结构 | 第10-11页 |
第2章 垂直搜索引擎基本知识介绍 | 第11-20页 |
·通用搜索引擎分类 | 第11页 |
·通用搜索引擎的不足 | 第11页 |
·垂直搜索引擎的优势 | 第11-12页 |
·垂直引擎与通用搜索引擎的差别 | 第12页 |
·垂直搜索整体框架 | 第12-14页 |
·主题页面分布特征 | 第14页 |
·中文分词技术 | 第14-17页 |
·倒排索引的建立 | 第17-19页 |
·主题预测算法的介绍 | 第19-20页 |
第3章 Lucene的工作原理 | 第20-31页 |
·Lucene的特征与优点 | 第20页 |
·Lucene的结构 | 第20-26页 |
·基于Lucene的索引 | 第26-31页 |
·Lucene索引文件结构 | 第26-28页 |
·Lucene索引机制 | 第28-29页 |
·Lucene数据流解析 | 第29-31页 |
第4章 网络蜘蛛 | 第31-42页 |
·客户端与服务器建立连接 | 第31-32页 |
·网页搜集与网页净化 | 第32-36页 |
·文档视图模型和提取方法 | 第36-40页 |
·与主题相关度的判定 | 第40-41页 |
·内容重复网页的消除算法介绍和改进 | 第41-42页 |
第5章 系统设计与实现 | 第42-54页 |
·爬抓器蜘蛛的实现 | 第42-47页 |
·中文分词的实现 | 第47-48页 |
·索引器和检索器的实现 | 第48-49页 |
·改进的基于内容的网页消重算法的实现 | 第49-54页 |
第6章 总结与展望 | 第54-56页 |
参考文献 | 第56-59页 |
致谢 | 第59-60页 |
研究生期间发表论文 | 第60页 |