基于主题的文本数据采集系统的研究与实现

摘要	第1-6页
Abstract	第6-11页
第1章绪论	第11-15页
·研究背景	第11-12页
·相关技术	第12-13页
·多文档的关键词抽取	第12-13页
·文档相似度计算	第13页
·本文工作和论文结构	第13-15页
第2章系统功能和总体设计	第15-19页
·主题的表示	第15页
·系统功能介绍	第15-16页
·总体设计	第16-18页
·关键词抽取模块	第17页
·网络爬虫模块	第17-18页
·主题相关文档过滤模块	第18页
·本章小结	第18-19页
第3章网页采集	第19-29页
·网络爬虫定义	第19页
·网络爬虫的原理	第19-22页
·工作流程	第19-20页
·网页搜索策略	第20-21页
·网页分析算法	第21-22页
·主题爬虫	第22-23页
·网页采集模块的设计	第23-27页
·网页采集模块总体设计	第23页
·网页正文提取	第23-26页
·URL提取与过滤	第26-27页
·本章小结	第27-29页
第4章主题关键词抽取	第29-45页
·关键词定义	第29页
·关键词抽取的应用	第29-30页
·关键词抽取的分类	第30-31页
·关键词抽取	第30页
·关键词串的抽取	第30-31页
·关键词抽取方法	第31-32页
·关键词的特征	第32-33页
·多文档关键词的抽取	第33-39页
·任务描述	第33页
·相关的预处理	第33-34页
·常用的关键词抽取方法	第34-37页
·改进的关键词抽取方法	第37-39页
·实验	第39-43页
·实验语料与资源	第39页
·评价方法	第39-40页
·实验结果	第40-43页
·实验结果分析	第43页
·本章小结	第43-45页
第5章主题文档过滤	第45-65页
·文本相似度定义	第45页
·文本表示	第45-50页
·文本表示模型	第45-46页
·中文文本特征的分类	第46-47页
·特征降维	第47-49页
·特征权重计算	第49-50页
·基于向量空间模型的文本相似度计算方法	第50-51页
·文档相似度计算	第51-58页
·基于向量空间TF-IDF方法	第52-53页
·基于主题向量空间的相似度计算方法	第53-54页
·改进的基于向量空间TF-IDF方法	第54-55页
·基于HowNet词义相似度的文档相似度计算方法	第55-58页
·实验	第58-63页
·实验语料及资源	第58页
·评价方法	第58-59页
·实验结果	第59-62页
·实验结果分析	第62-63页
·本章小结	第63-65页
第6章总结与展望	第65-67页
·本文总结	第65-66页
·多文档关键词抽取技术	第65页
·文档相似度计算	第65-66页
·未来工作	第66-67页
参考文献	第67-71页
致谢	第71-73页
攻读硕士学位期间参加的科研项目	第73页