面向问答类网站的垂直搜索引擎的研究与实现
| 摘要 | 第1-6页 |
| ABSTRACT | 第6-9页 |
| 目录 | 第9-12页 |
| 第一章 绪论 | 第12-16页 |
| ·课题研究背景及意义 | 第12-13页 |
| ·国内外研究现状 | 第13-14页 |
| ·研究宏观现状 | 第13页 |
| ·研究技术现状 | 第13-14页 |
| ·论文的主要研究内容 | 第14-16页 |
| 第二章 垂直搜索引擎与问答类网站 | 第16-29页 |
| ·搜索引擎性能评价标准 | 第16页 |
| ·垂直搜索引擎概述 | 第16-22页 |
| ·爬虫技术 | 第17-19页 |
| ·信息抽取 | 第19页 |
| ·索引技术 | 第19页 |
| ·特征提取方法 | 第19-20页 |
| ·空间向量模型和TFIDF函数 | 第20-21页 |
| ·文本分类 | 第21-22页 |
| ·问答类网站 | 第22-26页 |
| ·概述 | 第22页 |
| ·分类 | 第22-24页 |
| ·特点 | 第24-25页 |
| ·问答类搜索引擎 | 第25-26页 |
| ·Nutch | 第26-29页 |
| ·Nutch的工作流程 | 第26-27页 |
| ·Nutch索引组成 | 第27页 |
| ·Nutch的排序机制 | 第27-29页 |
| 第三章 问答类垂直搜索引擎的设计 | 第29-48页 |
| ·问答类站点重要性的动态评价机制 | 第29-32页 |
| ·Alexa | 第29-30页 |
| ·动态评价机制计算公式 | 第30-31页 |
| ·权威站点动态评价的参数获取 | 第31-32页 |
| ·问答搜索系统结构 | 第32-34页 |
| ·问答爬虫 | 第34-44页 |
| ·链接过滤器 | 第35-36页 |
| ·主题过滤模块 | 第36-37页 |
| ·初始种子模块 | 第37-38页 |
| ·主题确立模块 | 第38-39页 |
| ·主题相关度分析模块 | 第39-44页 |
| ·问答信息抽取 | 第44-45页 |
| ·问答索引 | 第45-46页 |
| ·问答检索 | 第46-47页 |
| ·问答检索系统 | 第46页 |
| ·排序机制的改进 | 第46-47页 |
| ·信息定制模块 | 第47-48页 |
| 第四章 问答类垂直搜索引擎的实现 | 第48-67页 |
| ·主题爬虫 | 第48-58页 |
| ·主题词库的确立 | 第48-50页 |
| ·主题相关度分析模块 | 第50-58页 |
| ·问答信息索引及改进排序结果 | 第58-64页 |
| ·实现流程 | 第58-59页 |
| ·具体接口及数据表 | 第59-64页 |
| ·中文分词部分 | 第64-66页 |
| ·信息定制模块 | 第66-67页 |
| 第五章 系统的运行及测试 | 第67-73页 |
| ·实验条件 | 第67页 |
| ·数据集的准备 | 第67页 |
| ·系统的运行步骤 | 第67-68页 |
| ·运行前准备 | 第67-68页 |
| ·爬虫抓取指令 | 第68页 |
| ·本系统运行测试 | 第68-73页 |
| ·爬虫抓取效率的改进验证 | 第68-69页 |
| ·爬虫多线程抓取性能测试 | 第69-70页 |
| ·Nutch改进前后检索效率比较 | 第70-71页 |
| ·系统查询界面 | 第71-73页 |
| 第六章 结论 | 第73-75页 |
| ·主要工作及创新点 | 第73页 |
| ·研究展望 | 第73-75页 |
| 参考文献 | 第75-78页 |
| 致谢 | 第78-79页 |
| 攻读学位期间发表论文 | 第79页 |