摘要 | 第1-4页 |
ABSTRACT | 第4-8页 |
第一章 绪论 | 第8-13页 |
·研究背景与意义 | 第8-9页 |
·国内外研究现状 | 第9-11页 |
·论文主要研究内容 | 第11-12页 |
·论文结构 | 第12-13页 |
第二章 聚焦爬虫技术 | 第13-22页 |
·聚焦爬虫的基本概念 | 第13-14页 |
·聚焦爬虫的基本原理 | 第14-15页 |
·聚焦爬虫的基本框架 | 第15-21页 |
·基本系统Focused Crawler | 第15-16页 |
·基于机器学习的Intelligent Crawler | 第16-17页 |
·基于神经网络的Hopfield Net Spider | 第17-19页 |
·基于层次结构的Focused site crawler | 第19-21页 |
·小结 | 第21-22页 |
第三章 基于领域关键词自动扩展的变量主题HOPFIELD聚焦爬虫参考模型 | 第22-33页 |
·变量主题聚焦爬虫必须解决的两个核心问题 | 第22-23页 |
·基于领域关键词自动扩展的变量主题Hopfield聚焦爬虫参考模型 | 第23-27页 |
·主题特征动态生成问题的解决策略 | 第23-24页 |
·系统抓取准确性问题的解决策略 | 第24-27页 |
·参考模型的提出 | 第27页 |
·参考模型的具体描述 | 第27-31页 |
·模型的需求分析 | 第28页 |
·模型的空间维描述——系统体系结构 | 第28-30页 |
·模型的时间维描述——工作流程 | 第30-31页 |
·小结 | 第31-33页 |
第四章 基于领域关键词自动扩展的变量主题HOPFIELD聚焦爬虫关键技术 | 第33-54页 |
·领域关键词自动扩展关键技术 | 第33-42页 |
·改进的页面表示模型DocView-a | 第33-38页 |
·改进的网页关键词提取算法HTTE-a | 第38-41页 |
·算法性能测试 | 第41-42页 |
·面向HopfieldWeb模型的综合结构预测相关性分析模型HWRM | 第42-46页 |
·模型的基本思想 | 第43页 |
·网页相关性计算 | 第43-45页 |
·相关性模型HWRM的分析 | 第45-46页 |
·基于Hopfield神经网络的URL搜索算法HNcrawl | 第46-53页 |
·基本思想 | 第47-49页 |
·算法描述 | 第49-53页 |
·小结 | 第53-54页 |
第五章 系统设计与实验 | 第54-64页 |
·系统设计 | 第54-59页 |
·数据库设计 | 第54-55页 |
·相关类设计 | 第55-57页 |
·原型系统介绍 | 第57-59页 |
·系统实验 | 第59-62页 |
·性能评价指标 | 第59-61页 |
·系统实验 | 第61-62页 |
·基本结论 | 第62-63页 |
·小结 | 第63-64页 |
第六章 总结与展望 | 第64-67页 |
·全文总结 | 第64-65页 |
·未来的方向 | 第65-67页 |
参考文献 | 第67-72页 |
致谢 | 第72-73页 |
攻读硕士学位期间的主要研究成果 | 第73-74页 |
附录1 分词程序 | 第74-75页 |
附录2 网页解析程序 | 第75-79页 |
附录3 相关性分析程序 | 第79页 |
附录4 神经网络迭代程序 | 第79-82页 |
附录5 神经网络传播程序 | 第82-83页 |