垂直搜索引擎的研究
| 摘要 | 第1-5页 |
| ABSTRACT | 第5-9页 |
| 第1章 绪论 | 第9-11页 |
| ·研究的背景和意义 | 第9页 |
| ·国内外的发展情况 | 第9-10页 |
| ·本文的主要工作和组织结构 | 第10-11页 |
| 第2章 垂直搜索引擎基本知识介绍 | 第11-20页 |
| ·通用搜索引擎分类 | 第11页 |
| ·通用搜索引擎的不足 | 第11页 |
| ·垂直搜索引擎的优势 | 第11-12页 |
| ·垂直引擎与通用搜索引擎的差别 | 第12页 |
| ·垂直搜索整体框架 | 第12-14页 |
| ·主题页面分布特征 | 第14页 |
| ·中文分词技术 | 第14-17页 |
| ·倒排索引的建立 | 第17-19页 |
| ·主题预测算法的介绍 | 第19-20页 |
| 第3章 Lucene的工作原理 | 第20-31页 |
| ·Lucene的特征与优点 | 第20页 |
| ·Lucene的结构 | 第20-26页 |
| ·基于Lucene的索引 | 第26-31页 |
| ·Lucene索引文件结构 | 第26-28页 |
| ·Lucene索引机制 | 第28-29页 |
| ·Lucene数据流解析 | 第29-31页 |
| 第4章 网络蜘蛛 | 第31-42页 |
| ·客户端与服务器建立连接 | 第31-32页 |
| ·网页搜集与网页净化 | 第32-36页 |
| ·文档视图模型和提取方法 | 第36-40页 |
| ·与主题相关度的判定 | 第40-41页 |
| ·内容重复网页的消除算法介绍和改进 | 第41-42页 |
| 第5章 系统设计与实现 | 第42-54页 |
| ·爬抓器蜘蛛的实现 | 第42-47页 |
| ·中文分词的实现 | 第47-48页 |
| ·索引器和检索器的实现 | 第48-49页 |
| ·改进的基于内容的网页消重算法的实现 | 第49-54页 |
| 第6章 总结与展望 | 第54-56页 |
| 参考文献 | 第56-59页 |
| 致谢 | 第59-60页 |
| 研究生期间发表论文 | 第60页 |