基于主题的文本数据采集系统的研究与实现
| 摘要 | 第1-6页 |
| Abstract | 第6-11页 |
| 第1章 绪论 | 第11-15页 |
| ·研究背景 | 第11-12页 |
| ·相关技术 | 第12-13页 |
| ·多文档的关键词抽取 | 第12-13页 |
| ·文档相似度计算 | 第13页 |
| ·本文工作和论文结构 | 第13-15页 |
| 第2章 系统功能和总体设计 | 第15-19页 |
| ·主题的表示 | 第15页 |
| ·系统功能介绍 | 第15-16页 |
| ·总体设计 | 第16-18页 |
| ·关键词抽取模块 | 第17页 |
| ·网络爬虫模块 | 第17-18页 |
| ·主题相关文档过滤模块 | 第18页 |
| ·本章小结 | 第18-19页 |
| 第3章 网页采集 | 第19-29页 |
| ·网络爬虫定义 | 第19页 |
| ·网络爬虫的原理 | 第19-22页 |
| ·工作流程 | 第19-20页 |
| ·网页搜索策略 | 第20-21页 |
| ·网页分析算法 | 第21-22页 |
| ·主题爬虫 | 第22-23页 |
| ·网页采集模块的设计 | 第23-27页 |
| ·网页采集模块总体设计 | 第23页 |
| ·网页正文提取 | 第23-26页 |
| ·URL提取与过滤 | 第26-27页 |
| ·本章小结 | 第27-29页 |
| 第4章 主题关键词抽取 | 第29-45页 |
| ·关键词定义 | 第29页 |
| ·关键词抽取的应用 | 第29-30页 |
| ·关键词抽取的分类 | 第30-31页 |
| ·关键词抽取 | 第30页 |
| ·关键词串的抽取 | 第30-31页 |
| ·关键词抽取方法 | 第31-32页 |
| ·关键词的特征 | 第32-33页 |
| ·多文档关键词的抽取 | 第33-39页 |
| ·任务描述 | 第33页 |
| ·相关的预处理 | 第33-34页 |
| ·常用的关键词抽取方法 | 第34-37页 |
| ·改进的关键词抽取方法 | 第37-39页 |
| ·实验 | 第39-43页 |
| ·实验语料与资源 | 第39页 |
| ·评价方法 | 第39-40页 |
| ·实验结果 | 第40-43页 |
| ·实验结果分析 | 第43页 |
| ·本章小结 | 第43-45页 |
| 第5章 主题文档过滤 | 第45-65页 |
| ·文本相似度定义 | 第45页 |
| ·文本表示 | 第45-50页 |
| ·文本表示模型 | 第45-46页 |
| ·中文文本特征的分类 | 第46-47页 |
| ·特征降维 | 第47-49页 |
| ·特征权重计算 | 第49-50页 |
| ·基于向量空间模型的文本相似度计算方法 | 第50-51页 |
| ·文档相似度计算 | 第51-58页 |
| ·基于向量空间TF-IDF方法 | 第52-53页 |
| ·基于主题向量空间的相似度计算方法 | 第53-54页 |
| ·改进的基于向量空间TF-IDF方法 | 第54-55页 |
| ·基于HowNet词义相似度的文档相似度计算方法 | 第55-58页 |
| ·实验 | 第58-63页 |
| ·实验语料及资源 | 第58页 |
| ·评价方法 | 第58-59页 |
| ·实验结果 | 第59-62页 |
| ·实验结果分析 | 第62-63页 |
| ·本章小结 | 第63-65页 |
| 第6章 总结与展望 | 第65-67页 |
| ·本文总结 | 第65-66页 |
| ·多文档关键词抽取技术 | 第65页 |
| ·文档相似度计算 | 第65-66页 |
| ·未来工作 | 第66-67页 |
| 参考文献 | 第67-71页 |
| 致谢 | 第71-73页 |
| 攻读硕士学位期间参加的科研项目 | 第73页 |