首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于Herixtrix和Lucene的Web站内搜索系统

摘要第1-4页
Abstract第4-7页
第一章 绪论第7-15页
   ·概念第7页
   ·起源及发展第7-9页
   ·工作原理及方式第9-10页
     ·抓取网页第9页
     ·处理网页第9页
     ·提供检索服务第9-10页
   ·发展趋势第10-11页
     ·提高搜索引擎对用户检索提问的理解第10页
     ·对检索结果进行处理第10-11页
     ·提高针对性第11页
   ·分类第11-12页
     ·全文索引第11页
     ·目录索引第11-12页
     ·元搜索引擎第12页
     ·垂直搜索引擎第12页
   ·论文的主要工作和章节安排第12-15页
第二章 网页抓取技术及具体实现第15-33页
   ·基本原理第15-17页
   ·使用及注意事项第17-21页
     ·网络蜘蛛的访问控制第17-19页
     ·网络蜘蛛的内容提取第19-21页
     ·网络蜘蛛的更新周期第21页
   ·网络蜘蛛的选择第21-22页
   ·使用网络蜘蛛抓取网站内容第22-33页
     ·构建下载逻辑第22-27页
     ·下载和运行第27-28页
     ·创建抓取任务第28-30页
     ·设计更新算法第30-33页
第三章 网页解析及实现第33-47页
   ·网页噪声第33-34页
   ·网页解析第34-36页
     ·利用HTML 标记分布规律进行解析第34-35页
     ·利用HTML 标记间的关系进行解析第35页
     ·利用页面的视觉特征进行解析第35页
     ·利用TABLE 标记的布局特性进行解析第35-36页
   ·实现网页解析第36-47页
     ·对结果的构想第36-37页
     ·设计第37-44页
     ·结果测试第44-47页
第四章 全文检索系统及其索引的建立第47-67页
   ·什么是全文检索与全文检索系统第47-48页
   ·中文分词第48-53页
     ·中文分词的概念第49页
     ·中文分词技术第49页
     ·现有分词简介第49-50页
     ·构建产品信息词库第50-53页
   ·基于Lucene 的索引及其实现第53-67页
     ·什么是Lucene第53-54页
     ·Lucene 的特点及优势第54-55页
     ·Lucene 系统结构分析第55-58页
     ·Lucene 索引文件格式第58-59页
     ·Lucene 索引构建逻辑模块第59-60页
     ·索引的实现第60-65页
     ·结果测试第65-67页
第五章 搜索系统的WEB 部分第67-73页
   ·配置文件和各种Beans 类第67-68页
   ·执行搜索功能的类第68-70页
   ·页面设计第70-73页
第六章 结论和展望第73-75页
致谢第75-77页
参考文献第77-79页

论文共79页,点击 下载论文
上一篇:基于网络的Web漏洞检测系统的研究与实现
下一篇:面向远程教育的搜索引擎系统设计与实现