首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

基于页面分析的主题网络爬虫的研究

摘要第1-5页
Abstract第5-8页
第1章 绪论第8-17页
   ·课题的研究背景和意义第8-10页
   ·网络爬虫概述第10-12页
     ·网络爬虫的基本原理第10-11页
     ·网络爬虫的基本结构第11-12页
   ·网络爬虫研究现状第12-14页
   ·网络爬虫面临的主要问题和解决手段第14-15页
   ·本文研究的内容及组织结构第15-17页
     ·本文研究的内容第15-16页
     ·论文的组织结构第16-17页
第2章 基于页面分析的主题网络爬虫的初步研究第17-25页
   ·主题网络爬虫的采集方法第17页
   ·基于页面分析的主题网络爬虫的工作原理第17-18页
   ·基于页面分析的主题网络爬虫的优点第18-19页
   ·基于页面分析的主题网络爬虫模型第19-22页
   ·页面分析第22-25页
     ·HTML页面的结构第22-23页
     ·页面中正文的提取第23页
     ·页面中标题的提取第23-24页
     ·页面中内容描述的提取别第24-25页
第3章 基于知网的语义分析技术第25-38页
   ·知网相关介绍第25-29页
     ·知网的特色第25-26页
     ·知网对词语的描述第26-27页
     ·知网的结构及相关性理论第27-29页
   ·基于知网的词语相关度计算及词义消歧第29-33页
     ·相关度概念第29-30页
     ·词义消歧第30-33页
   ·基于知网的主题义原集提取第33-36页
     ·主题关键词和主题本文的获取第33-34页
     ·生成主题义原集第34-36页
   ·基于知网的词语相似度计算第36-38页
     ·词语相似度的概念第36页
     ·基于知网的词语相似度计算第36-37页
     ·义原相似度第37-38页
第4章 页面与主题相关性判定算法研究第38-48页
   ·传统向量空间模型VSM的分析第38-42页
     ·TF-IDF算法第38-39页
     ·相关概念第39-40页
     ·传统向量空间模型第40-41页
     ·传统向量空间模型分析第41-42页
   ·基于Web结构的向量空间模型第42-44页
     ·改进思路第42-43页
     ·改进的向量空间模型第43-44页
   ·基于知网的Web页面与主题相关性判定算法第44-48页
第5章 WebSpider系统设计及实验第48-56页
   ·系统设计第48-51页
   ·复杂度分析第51-52页
   ·实验第52-56页
     ·评估指标第52-53页
     ·主题和种子URL第53页
     ·实验结果及分析第53-56页
第6章 总结与展望第56-59页
   ·总结第56-57页
   ·进一步的研究工作第57-59页
致谢第59-60页
参考文献第60-63页
攻读硕士学位期间发表的论文和参加科研项目情况第63页

论文共63页,点击 下载论文
上一篇:基于DSP道路识别技术研究
下一篇:移动地理信息系统应用研究