基于Lucene的垂直搜索引擎的研究与实现
| 摘要 | 第1-6页 |
| Abstract | 第6-10页 |
| 第1章 引言 | 第10-13页 |
| ·研究背景 | 第10-11页 |
| ·研究现状 | 第11-12页 |
| ·研究内容 | 第12-13页 |
| 第2章 垂直搜索引擎的关键技术 | 第13-22页 |
| ·垂直搜索引擎概述 | 第13-15页 |
| ·垂直搜索引擎简介 | 第13页 |
| ·垂直搜索的特点 | 第13-14页 |
| ·垂直搜索引擎框架 | 第14-15页 |
| ·Heritrix网络爬虫简介 | 第15-17页 |
| ·Heritrix的工作流程及其构架 | 第15页 |
| ·Heritrix主要组件包含的类 | 第15-17页 |
| ·Lucene全文搜索框架 | 第17-22页 |
| ·Lucene的索引 | 第18-21页 |
| ·Lucene的索引记录 | 第19-20页 |
| ·Lucene的索引工具 | 第20-21页 |
| ·Lucene的搜索方式 | 第21-22页 |
| 第3章 中文分词算法 | 第22-38页 |
| ·中文分词技术概述 | 第22-25页 |
| ·中文分词代表 | 第23-24页 |
| ·中文分词系统的评价标准 | 第24-25页 |
| ·中文分词算法的分类 | 第25页 |
| ·基于字符串匹配的分词方法 | 第25页 |
| ·基于理解的分词方法 | 第25页 |
| ·基于统计的分词方法 | 第25页 |
| ·中文分词技术面临的问题 | 第25-28页 |
| ·歧义识别 | 第26-27页 |
| ·未登录词的识别 | 第27-28页 |
| ·中文分词算法 | 第28-34页 |
| ·算法设计所针对的问题 | 第28页 |
| ·分词词典的设计 | 第28-31页 |
| ·统计策略的设计 | 第31页 |
| ·语料库的获取 | 第31-32页 |
| ·分词算法 | 第32-34页 |
| ·实验结果分析 | 第34-38页 |
| ·综合性能测试一 | 第34-35页 |
| ·综合性能测试二 | 第35-36页 |
| ·分全率和分词效率实验 | 第36页 |
| ·歧义词和未登录词处理能力测试 | 第36-38页 |
| 第4章 手机信息垂直搜索引擎系统分析 | 第38-43页 |
| ·系统功能模块分析 | 第38-39页 |
| ·系统功能模块概述 | 第39-43页 |
| ·网页抓取模块 | 第39页 |
| ·网页预处理和索引模块 | 第39-40页 |
| ·网页净化与消重 | 第39-40页 |
| ·PageRank算法 | 第40页 |
| ·用户检索模块 | 第40-41页 |
| ·后台管理模块 | 第41-43页 |
| 第5章 垂直搜索引擎的系统设计与实现 | 第43-62页 |
| ·网页抓取模块设计 | 第43-46页 |
| ·网页抓取流程 | 第43-44页 |
| ·网页抓取逻辑 | 第44-46页 |
| ·网页信息解析模块设计 | 第46-48页 |
| ·词库的建立 | 第48页 |
| ·数据库与索引结构 | 第48-53页 |
| ·Product类 | 第49页 |
| ·数据库结构 | 第49页 |
| ·数据库处理类 | 第49-50页 |
| ·索引结构 | 第50页 |
| ·索引处理类 | 第50-51页 |
| ·综合处理类 | 第51-53页 |
| ·用户检索模块设计 | 第53-62页 |
| ·信息检索的实现 | 第53-54页 |
| ·检索结果的排序 | 第54-55页 |
| ·搜索引擎后台 | 第55-57页 |
| ·Bean类的设计 | 第57页 |
| ·Web页面设计与实现 | 第57-60页 |
| ·手机垂直搜索引擎系统性能评价 | 第60-62页 |
| 结论 | 第62-64页 |
| 致谢 | 第64-65页 |
| 参考文献 | 第65-67页 |
| 攻读学位期间取得学术成果 | 第67页 |