首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于主题的文本数据采集系统的研究与实现

摘要第1-6页
Abstract第6-11页
第1章 绪论第11-15页
   ·研究背景第11-12页
   ·相关技术第12-13页
     ·多文档的关键词抽取第12-13页
     ·文档相似度计算第13页
   ·本文工作和论文结构第13-15页
第2章 系统功能和总体设计第15-19页
   ·主题的表示第15页
   ·系统功能介绍第15-16页
   ·总体设计第16-18页
     ·关键词抽取模块第17页
     ·网络爬虫模块第17-18页
     ·主题相关文档过滤模块第18页
   ·本章小结第18-19页
第3章 网页采集第19-29页
   ·网络爬虫定义第19页
   ·网络爬虫的原理第19-22页
     ·工作流程第19-20页
     ·网页搜索策略第20-21页
     ·网页分析算法第21-22页
   ·主题爬虫第22-23页
   ·网页采集模块的设计第23-27页
     ·网页采集模块总体设计第23页
     ·网页正文提取第23-26页
     ·URL提取与过滤第26-27页
   ·本章小结第27-29页
第4章 主题关键词抽取第29-45页
   ·关键词定义第29页
   ·关键词抽取的应用第29-30页
   ·关键词抽取的分类第30-31页
     ·关键词抽取第30页
     ·关键词串的抽取第30-31页
   ·关键词抽取方法第31-32页
   ·关键词的特征第32-33页
   ·多文档关键词的抽取第33-39页
     ·任务描述第33页
     ·相关的预处理第33-34页
     ·常用的关键词抽取方法第34-37页
     ·改进的关键词抽取方法第37-39页
   ·实验第39-43页
     ·实验语料与资源第39页
     ·评价方法第39-40页
     ·实验结果第40-43页
     ·实验结果分析第43页
   ·本章小结第43-45页
第5章 主题文档过滤第45-65页
   ·文本相似度定义第45页
   ·文本表示第45-50页
     ·文本表示模型第45-46页
     ·中文文本特征的分类第46-47页
     ·特征降维第47-49页
     ·特征权重计算第49-50页
   ·基于向量空间模型的文本相似度计算方法第50-51页
   ·文档相似度计算第51-58页
     ·基于向量空间TF-IDF方法第52-53页
     ·基于主题向量空间的相似度计算方法第53-54页
     ·改进的基于向量空间TF-IDF方法第54-55页
     ·基于HowNet词义相似度的文档相似度计算方法第55-58页
   ·实验第58-63页
     ·实验语料及资源第58页
     ·评价方法第58-59页
     ·实验结果第59-62页
     ·实验结果分析第62-63页
   ·本章小结第63-65页
第6章 总结与展望第65-67页
   ·本文总结第65-66页
     ·多文档关键词抽取技术第65页
     ·文档相似度计算第65-66页
   ·未来工作第66-67页
参考文献第67-71页
致谢第71-73页
攻读硕士学位期间参加的科研项目第73页

论文共73页,点击 下载论文
上一篇:红外辐射时间差动态铁水垂直流速检测的研究
下一篇:基于图像处理技术的矩形类零件测量方法的研究与应用