首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

主题爬虫关键技术研究及应用

摘要第1-7页
ABSTRACT第7-9页
目录第9-12页
第1章 绪论第12-17页
   ·选题背景第12页
   ·论文研究意义第12-13页
   ·主题爬虫关键技术研究现状第13-15页
     ·主题基准模型第13-14页
     ·网页分析方法第14页
     ·网页搜索策略第14-15页
   ·本文主要研究内容第15-16页
   ·论文组织结构第16-17页
第2章 主题爬虫相关技术研究第17-34页
   ·主题爬虫工作原理第17-19页
   ·主题基准模型建立方法研究第19-23页
     ·基于常规方法建立主题基准模型第19-21页
     ·基于知识库建立主题基准模型第21-22页
     ·基于本体建立主题基准模型第22-23页
     ·分析小结第23页
   ·网页正文提取研究第23-27页
     ·基于网页结构正文提取第23-24页
     ·基于网页模板正文提取第24-25页
     ·基于可视化信息正文提取第25-27页
     ·分析小结第27页
   ·主题爬虫搜索策略研究第27-33页
     ·基于立即价值评价搜索第27-30页
     ·基于未来价值评价搜索第30-31页
     ·基于综合价值评价搜索第31页
     ·基于动态价值评价搜索第31-32页
     ·分析小结第32-33页
   ·本章小结第33-34页
第3章 主题爬虫总体设计第34-43页
   ·主题爬虫设计第34-36页
     ·主题爬虫时序图第35页
     ·主题爬虫类结构第35-36页
   ·初始化主题爬虫种子第36-37页
   ·页面采集模块第37-40页
     ·网页源码下载第37-38页
     ·网页链接提取第38-39页
     ·URL访问控制第39-40页
   ·主题相关度计算第40-41页
   ·主题爬虫工作流程第41-42页
   ·本章小结第42-43页
第4章 主题基准模型和网页分析方法研究第43-56页
   ·向量空间模型第43-44页
   ·主题基准模型研究第44-47页
     ·TF-IDF词频统计算法分析第44-46页
     ·改进TF-IDF特征项权值统计算法第46-47页
   ·网页分析方法研究第47-48页
   ·网页消噪第48-49页
   ·标签窗口正文提取研究第49-54页
     ·基于标签窗口分块第50-52页
     ·正文提取研究第52-54页
   ·网页主题向量空间表示第54-55页
   ·本章小结第55-56页
第5章 主题搜索策略的研究与改进第56-62页
   ·遗传算法第56-57页
     ·遗传算法基本思想第56页
     ·遗传算法在主题爬虫中的应用研究第56-57页
   ·自适应遗传算法搜索策略第57-61页
     ·适应度函数第59页
     ·选择操作第59页
     ·交叉操作第59页
     ·变异操作第59-60页
     ·自适应控制第60-61页
   ·本章小结第61-62页
第6章 信用主题爬虫实现与应用第62-72页
   ·信用主题基准模型建立第62-63页
   ·初始化信用种子第63页
   ·系统数据库表设计第63-64页
   ·实验结果第64-71页
     ·信用主题爬虫开发环境第64-65页
     ·试验及结果分析第65-71页
   ·本章小结第71-72页
第7章 结论与展望第72-74页
   ·结论第72-73页
   ·展望第73-74页
参考文献第74-79页
致谢第79-80页
攻读学位期间参加的科研项目和成果第80页

论文共80页,点击 下载论文
上一篇:基于动态权限策略的CAD模型安全保护
下一篇:基于资源影响的大规模植被实时生成研究