拼车信息检索系统的设计与实现
| 摘要 | 第1-5页 |
| Abstract | 第5-8页 |
| 第1章 绪论 | 第8-16页 |
| ·课题来源及项目名称 | 第8页 |
| ·课题研究的目的和意义 | 第8-9页 |
| ·与本课题有关的国内外研究现状 | 第9-15页 |
| ·基于主题的网络爬虫 | 第9-13页 |
| ·信息抽取 | 第13-15页 |
| ·本论文主要工作内容 | 第15-16页 |
| 第2章 系统相关技术 | 第16-25页 |
| ·插件技术 | 第16-18页 |
| ·插件技术对本系统的作用 | 第16页 |
| ·Eclipse的插件技术介绍 | 第16-18页 |
| ·字符串相似度计算 | 第18-20页 |
| ·基于字典树的正向最大匹配分词 | 第20-24页 |
| ·字典树简介 | 第20-21页 |
| ·字典树的双数组实现 | 第21-23页 |
| ·正向最大匹配分词 | 第23-24页 |
| ·本章小结 | 第24-25页 |
| 第3章 系统分析与概要设计 | 第25-34页 |
| ·系统需求分析 | 第25-30页 |
| ·功能需求 | 第25-29页 |
| ·其它需求 | 第29-30页 |
| ·模块划分 | 第30-31页 |
| ·系统概要设计 | 第31-33页 |
| ·系统整体设计方案 | 第31页 |
| ·爬虫整体设计方案 | 第31-32页 |
| ·信息抽取整体设计方案 | 第32-33页 |
| ·本章小结 | 第33-34页 |
| 第4章 系统详细设计与实现 | 第34-59页 |
| ·种子地址获取模块 | 第34页 |
| ·Fetcher模块 | 第34-36页 |
| ·解析器模块 | 第36-45页 |
| ·基于插件结构和三点定位法的解析 | 第36-41页 |
| ·基于字符串相似度的解析 | 第41-45页 |
| ·系统当前解析策略 | 第45页 |
| ·UrlServer模块 | 第45-48页 |
| ·Content页面去重模块 | 第48-51页 |
| ·增量抓取模块 | 第51-52页 |
| ·Content页面分类模块 | 第52页 |
| ·地名抽取模块 | 第52-55页 |
| ·字典树双数组实现改进 | 第52-54页 |
| ·基于正向最大匹配分词的地名抽取 | 第54-55页 |
| ·出发地和联系方式识别模块 | 第55-58页 |
| ·多模式匹配算法与任务特点分析 | 第55-56页 |
| ·模式构建 | 第56-57页 |
| ·识别细节说明 | 第57-58页 |
| ·查询扩展模块 | 第58页 |
| ·过期信息删除模块 | 第58页 |
| ·本章小结 | 第58-59页 |
| 第5章 系统运行效果 | 第59-65页 |
| ·系统运行结果截图 | 第59-60页 |
| ·系统运行效果评测 | 第60-64页 |
| ·地名抽取 | 第60-61页 |
| ·出发地及联系方式识别 | 第61-62页 |
| ·Content页面去重及分类 | 第62-64页 |
| ·系统性能 | 第64页 |
| ·本章小结 | 第64-65页 |
| 结论 | 第65-67页 |
| 参考文献 | 第67-70页 |
| 附录 1 解析器配置文件样例 | 第70-72页 |
| 致谢 | 第72-73页 |
| 个人简历 | 第73页 |