面向主题的舆情采集搜索爬虫的设计与实现
| 摘要 | 第1-9页 |
| ABSTRACT | 第9-11页 |
| 第1章 绪论 | 第11-22页 |
| ·背景分析 | 第11-14页 |
| ·国内外研究现状 | 第14-17页 |
| ·通用搜索引擎 | 第14-15页 |
| ·面向主题的个性化搜索引擎 | 第15-17页 |
| ·目前常见的搜索策略 | 第17-20页 |
| ·本文的主要工作 | 第20-21页 |
| ·本文的组织结构 | 第21-22页 |
| 第2章 需求分析 | 第22-37页 |
| ·主题分析法及其特征 | 第22-23页 |
| ·主题分析法在网络的应用 | 第23-24页 |
| ·主题分析法与网络舆情信息分析的结合 | 第24-26页 |
| ·面向舆情主题搜索爬虫存在的问题 | 第26-27页 |
| ·Boltzmann行动选择策略 | 第27-30页 |
| ·模拟退火算法 | 第27-29页 |
| ·基于模拟退火的Boltzmann行动选择策略 | 第29-30页 |
| ·基于信噪比的网页权重 | 第30-33页 |
| ·信噪比的概念 | 第30-31页 |
| ·网页信噪比 | 第31-33页 |
| ·在线增量自学习的聚焦爬行 | 第33-34页 |
| ·在线增量自学习的意义 | 第33页 |
| ·自学习模型的建立 | 第33-34页 |
| ·网络舆情信息主题分析的工作框架 | 第34-37页 |
| 第3章 概要设计 | 第37-49页 |
| ·系统设计目标 | 第37-38页 |
| ·系统设计架构 | 第38-40页 |
| ·主题模块的设计 | 第40-41页 |
| ·Boltzmann概率计算器 | 第41-43页 |
| ·链接数据库 | 第43页 |
| ·网页抓取控制器 | 第43页 |
| ·HTML结构分析器 | 第43-44页 |
| ·链接优先权队列 | 第44-45页 |
| ·网页信噪比比较器 | 第45-46页 |
| ·置信窗口 | 第46页 |
| ·在线增量更新器 | 第46页 |
| ·Robot协议分析器 | 第46-49页 |
| 第4章 系统详细设计 | 第49-62页 |
| ·面向主题的舆情采集爬虫设计目标 | 第49页 |
| ·设计原则 | 第49-50页 |
| ·部分类图设计 | 第50-51页 |
| ·基于工厂模式的爬行器 | 第50-51页 |
| ·基于观察者模式的增量更新器 | 第51页 |
| ·网络架构 | 第51-52页 |
| ·数据库设计 | 第52-59页 |
| ·系统技术结构 | 第59-62页 |
| 第5章 系统实现与测试 | 第62-85页 |
| ·Q价值计算的实现 | 第62-65页 |
| ·网页信噪比计算的实现 | 第65-66页 |
| ·Boltzmann的算法的实现 | 第66-72页 |
| ·Robot协议分析器的实现 | 第72-75页 |
| ·初始种子模块 | 第75-76页 |
| ·实验测试标准 | 第76-77页 |
| ·实验结果 | 第77-79页 |
| ·系统功能实现 | 第79-85页 |
| 第6章 总结与展望 | 第85-86页 |
| 参考文献 | 第86-87页 |
| 致谢 | 第87-88页 |
| 学位论文评阅及答辩情况表 | 第88页 |