摘要 | 第4-6页 |
ABSTRACT | 第6-7页 |
第一章 绪论 | 第10-14页 |
1.1 研究背景 | 第10-11页 |
1.2 研究目的与意义 | 第11页 |
1.3 研究现状 | 第11-12页 |
1.4 研究内容 | 第12页 |
1.5 本文组织结构 | 第12-14页 |
第二章 相关技术研究 | 第14-26页 |
2.1 信息检索 | 第14-16页 |
2.2 文本相似度 | 第16-19页 |
2.3 文本表示模型 | 第19-21页 |
2.4 TFIDF 算法及其改进算法 | 第21-22页 |
2.5 SAP HANA 内存数据库 | 第22-25页 |
2.6 本章小结 | 第25-26页 |
第三章 分段向量空间模型 | 第26-32页 |
3.1 向量空间模型及其局限性 | 第26-27页 |
3.2 分段向量空间模型 | 第27-30页 |
3.2.1 文本的嵌套向量表示 | 第27-29页 |
3.2.2 分段向量表示 | 第29页 |
3.2.3 分段向量的相似度计算 | 第29-30页 |
3.3 本章小结 | 第30-32页 |
第四章 Web 医疗咨询数据的检索方案 | 第32-49页 |
4.1 Web 医疗咨询数据的特点 | 第32页 |
4.2 Web 医疗咨询数据的预处理 | 第32-40页 |
4.2.1 Web 数据的特点 | 第33-34页 |
4.2.2 数据集的选择 | 第34页 |
4.2.3 HTML 下载模块 | 第34-36页 |
4.2.4 HTML 解析模块 | 第36-37页 |
4.2.5 用户的基本信息预处理模块 | 第37-39页 |
4.2.6 中文分词模块 | 第39-40页 |
4.3 SVSM 模型在 Web 医疗咨询数据检索中的应用 | 第40-45页 |
4.3.1 SVSM 模型的应用 | 第41页 |
4.3.2 基于 SVSM 模型的检索方案 | 第41-43页 |
4.3.3 算法实现 | 第43-45页 |
4.4 实验验证 | 第45-48页 |
4.4.1 实验环境与数据集 | 第45-46页 |
4.4.2 实验结果与分析 | 第46页 |
4.4.3 不同的检索结果返回记录数 | 第46-47页 |
4.4.4 优化影响因子k_i | 第47-48页 |
4.5 本章小结 | 第48-49页 |
第五章 Web 医疗咨询数据的分析 | 第49-57页 |
5.1 实验环境 | 第49页 |
5.2 数据集 | 第49-50页 |
5.3 用户的基本信息分析 | 第50-54页 |
5.3.1 分析步骤 | 第50-52页 |
5.3.2 实验结果 | 第52-54页 |
5.4 用户的病情描述分析 | 第54-56页 |
5.4.1 分析方法 | 第54-55页 |
5.4.2 实验结果 | 第55-56页 |
5.5 本章小结 | 第56-57页 |
第六章 总结与展望 | 第57-59页 |
6.1 本文研究工作总结 | 第57页 |
6.2 未来工作展望 | 第57-59页 |
参考文献 | 第59-62页 |
攻读学位期间的研究成果目录 | 第62-63页 |
致谢 | 第63页 |