基于主题的文本数据采集系统的研究与实现
摘要 | 第1-6页 |
Abstract | 第6-11页 |
第1章 绪论 | 第11-15页 |
·研究背景 | 第11-12页 |
·相关技术 | 第12-13页 |
·多文档的关键词抽取 | 第12-13页 |
·文档相似度计算 | 第13页 |
·本文工作和论文结构 | 第13-15页 |
第2章 系统功能和总体设计 | 第15-19页 |
·主题的表示 | 第15页 |
·系统功能介绍 | 第15-16页 |
·总体设计 | 第16-18页 |
·关键词抽取模块 | 第17页 |
·网络爬虫模块 | 第17-18页 |
·主题相关文档过滤模块 | 第18页 |
·本章小结 | 第18-19页 |
第3章 网页采集 | 第19-29页 |
·网络爬虫定义 | 第19页 |
·网络爬虫的原理 | 第19-22页 |
·工作流程 | 第19-20页 |
·网页搜索策略 | 第20-21页 |
·网页分析算法 | 第21-22页 |
·主题爬虫 | 第22-23页 |
·网页采集模块的设计 | 第23-27页 |
·网页采集模块总体设计 | 第23页 |
·网页正文提取 | 第23-26页 |
·URL提取与过滤 | 第26-27页 |
·本章小结 | 第27-29页 |
第4章 主题关键词抽取 | 第29-45页 |
·关键词定义 | 第29页 |
·关键词抽取的应用 | 第29-30页 |
·关键词抽取的分类 | 第30-31页 |
·关键词抽取 | 第30页 |
·关键词串的抽取 | 第30-31页 |
·关键词抽取方法 | 第31-32页 |
·关键词的特征 | 第32-33页 |
·多文档关键词的抽取 | 第33-39页 |
·任务描述 | 第33页 |
·相关的预处理 | 第33-34页 |
·常用的关键词抽取方法 | 第34-37页 |
·改进的关键词抽取方法 | 第37-39页 |
·实验 | 第39-43页 |
·实验语料与资源 | 第39页 |
·评价方法 | 第39-40页 |
·实验结果 | 第40-43页 |
·实验结果分析 | 第43页 |
·本章小结 | 第43-45页 |
第5章 主题文档过滤 | 第45-65页 |
·文本相似度定义 | 第45页 |
·文本表示 | 第45-50页 |
·文本表示模型 | 第45-46页 |
·中文文本特征的分类 | 第46-47页 |
·特征降维 | 第47-49页 |
·特征权重计算 | 第49-50页 |
·基于向量空间模型的文本相似度计算方法 | 第50-51页 |
·文档相似度计算 | 第51-58页 |
·基于向量空间TF-IDF方法 | 第52-53页 |
·基于主题向量空间的相似度计算方法 | 第53-54页 |
·改进的基于向量空间TF-IDF方法 | 第54-55页 |
·基于HowNet词义相似度的文档相似度计算方法 | 第55-58页 |
·实验 | 第58-63页 |
·实验语料及资源 | 第58页 |
·评价方法 | 第58-59页 |
·实验结果 | 第59-62页 |
·实验结果分析 | 第62-63页 |
·本章小结 | 第63-65页 |
第6章 总结与展望 | 第65-67页 |
·本文总结 | 第65-66页 |
·多文档关键词抽取技术 | 第65页 |
·文档相似度计算 | 第65-66页 |
·未来工作 | 第66-67页 |
参考文献 | 第67-71页 |
致谢 | 第71-73页 |
攻读硕士学位期间参加的科研项目 | 第73页 |