首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于URL及上下文的主题网络爬虫研究

摘要第1-7页
Abstract第7-9页
目录第9-11页
第一章 绪论第11-22页
   ·研究目的与意义第11-12页
   ·研究背景第12-14页
   ·国内外研究现状第14-20页
     ·关键词搜索主题爬虫第14-16页
     ·网页内容分析主题爬虫第16-17页
     ·链接 URL 特征主题爬虫第17-20页
   ·论文的组织架构第20-22页
第二章 Lucene.Net 的概述第22-33页
   ·全文检索基本原理第22-24页
     ·索引第23-24页
     ·全文检索框架第24页
   ·全文检索相关理论第24-26页
     ·正排索引第25页
     ·倒排索引第25-26页
   ·Lucene.Net第26-29页
     ·创建索引第26-28页
     ·索引查询第28-29页
   ·中文分词第29-32页
     ·根据词典进行分词第30页
     ·按照词语的频率进行分词第30-31页
     ·根据理解进行分词第31页
     ·分词算法面对的挑战第31-32页
   ·本章小结第32-33页
第三章 基于 URL 及上下文的主题网络爬虫第33-43页
   ·系统架构与工作流程第33-34页
   ·获取网页编码和主题描述词的扩展第34-37页
     ·获取网页编码第34-36页
     ·扩展主题描述词第36-37页
   ·主题相关度计算第37-42页
     ·基于分块的多线程处理第37-39页
     ·链接 URL 及上下文的分析第39-42页
   ·本章小结第42-43页
第四章 实验过程及实验结果分析第43-49页
   ·实验过程第43-45页
     ·实现简单的网络爬虫第43-44页
     ·实现中文分词第44页
     ·主题网络爬虫第44-45页
   ·实验结果第45-48页
     ·实验环境第45页
     ·实验结果第45-48页
   ·本章小结第48-49页
第五章 总结与展望第49-50页
   ·论文总结第49页
   ·工作展望第49-50页
参考文献第50-53页
致谢第53页

论文共53页,点击 下载论文
上一篇:类内CodeSmell自动检测系统研究
下一篇:交通违规领域本体的构建及应用