Web垂直信息检索技术及算法的研究与实现
摘要 | 第5-6页 |
Abstract | 第6页 |
1 绪论 | 第9-14页 |
1.1 信息检索系统背景及意义 | 第9-10页 |
1.1.1 背景 | 第9页 |
1.1.2 意义 | 第9-10页 |
1.2 垂直信息检索系统含义 | 第10页 |
1.3 垂直信息检索系统国内外研究现状 | 第10-12页 |
1.4 提出问题 | 第12页 |
1.5 本文的结构安排 | 第12-14页 |
2 垂直信息检索系统需求技术概述 | 第14-23页 |
2.1 垂直信息检索系统原理 | 第14页 |
2.2 Heritrix爬虫技术 | 第14-16页 |
2.2.1 Heritrix组件 | 第15页 |
2.2.2 Heritrix原理 | 第15-16页 |
2.3 HTMLParser技术 | 第16-18页 |
2.3.1 HTMLParser简介 | 第16页 |
2.3.2 HTMLParser基本功能 | 第16-17页 |
2.3.3 HTMLParser包结构 | 第17-18页 |
2.4 中文分词 | 第18-19页 |
2.5 网页去重 | 第19-20页 |
2.6 Lucene技术 | 第20-21页 |
2.7 SSH框架技术 | 第21-22页 |
2.8 本章小结 | 第22-23页 |
3 垂直信息检索系统现有算法概述 | 第23-27页 |
3.1 TF-IDF去重算法 | 第23-24页 |
3.2 Page Rank权重计算算法 | 第24-25页 |
3.3 Lucene排序算法 | 第25-26页 |
3.4 本章小结 | 第26-27页 |
4 总体设计方案及相关算法优化 | 第27-57页 |
4.1 垂直信息检索系统总体设计方案 | 第27-28页 |
4.1.1 实际项目开发简述 | 第27页 |
4.1.2 总体设计方案 | 第27-28页 |
4.1.3 项目开发环境 | 第28页 |
4.2 Heritrix爬虫优化及实现模块 | 第28-33页 |
4.2.1 Heritrix爬虫优化前配置 | 第29页 |
4.2.2 Heritrix爬虫优化后效率 | 第29-33页 |
4.3 HTMLParser应用实现模块 | 第33-35页 |
4.4 中文分词优化及实现模块 | 第35-43页 |
4.5 网页去重算法优化及实现模块 | 第43-48页 |
4.6 Lucene排序优化算法及索引实现模块 | 第48-54页 |
4.6.1 改进的Lucene排序优化算法 | 第49-51页 |
4.6.2 Lucene索引建立 | 第51-53页 |
4.6.3 Lucene索引查询 | 第53-54页 |
4.7 垂直信息检索系统SSH框架搭建模块 | 第54-56页 |
4.8 本章小结 | 第56-57页 |
5 垂直信息检索系统数据库设计 | 第57-60页 |
5.1 项目数据库表结构设计 | 第57-59页 |
5.2 本章小结 | 第59-60页 |
6 垂直信息检索系统的实现及测试 | 第60-67页 |
6.1 改进程序及算法对比结果 | 第60-63页 |
6.2 项目展示最终结果 | 第63-66页 |
6.3 本章小结 | 第66-67页 |
7 研究工作的展望 | 第67-69页 |
7.1 总结 | 第67页 |
7.2 日后工作展望 | 第67-69页 |
参考文献 | 第69-72页 |
致谢 | 第72-73页 |
攻读硕士学位期间取得的研究成果 | 第73-74页 |
学位论文数据集表 | 第74-75页 |