网络论坛信息采集技术的研究与实现

摘要	第5-7页
Abstract	第7页
第一章绪论	第10-22页
1.1 论文的研究背景与意义	第10-12页
1.2 国内外研究现状	第12-17页
1.2.1 互联网舆情分析、不良信息研究现状	第12-13页
1.2.2 网页信息爬取研究现状	第13-15页
1.2.3 网页信息抽取研究现状	第15-17页
1.3 项目支撑及背景	第17-18页
1.4 论文主要研究内容	第18页
1.5 论文结构组织	第18-19页
1.6 主要创新点	第19-20页
1.7 本章小结	第20-22页
第二章互联网不良信息监测及管理系统概述	第22-26页
2.1 支撑项目系统简介	第22-23页
2.2 网络论坛信息获取子系统概述	第23页
2.3 论文研究的关键问题以及系统的相关设计要点分析	第23-25页
2.3.1. 研究关键问题	第23-25页
2.3.2 系统的相关设计要点分析	第25页
2.4 本章小结	第25-26页
第三章相关技术及标准	第26-32页
3.1 HTML、HTML、XML	第26-28页
3.1.1 HTML	第26-27页
3.1.2 XHTML	第27页
3.1.3 XML	第27-28页
3.2 HttpCl ient、HtmlParser简介	第28-29页
3.2.1 HttpClient	第28-29页
3.2.2 HtmlParser	第29页
3.3 多线程技术	第29-30页
3.4 正则表达式技术	第30-31页
3.5 本章小结	第31-32页
第四章网络论坛信息采集的研究与实现	第32-62页
4.1 论坛爬虫策略	第32-37页
4.1.1 通用网络爬虫原理及其分析	第32-33页
4.1.2 针对论坛的结构特点分析	第33-34页
4.1.3 论坛爬虫模块设计关键问题分析	第34-35页
4.1.4 论坛爬虫爬行策略	第35-37页
4.2 过滤机制	第37-48页
4.2.1 基于URL链接格式的过滤	第38-41页
4.2.2. 基于内容的过滤校验	第41-43页
4.2.3 BG_q-Grams_u-Unrolling_s-Shift系列算法	第43-47页
4.2.4 实验及结果分析	第47-48页
4.3 论坛数据增量更新	第48-61页
4.3.1 论坛增量爬取算法	第49-52页
4.3.2 系统增量爬取调度	第52-58页
4.3.3 实验及结果分析	第58-61页
4.4 本章小结	第61-62页
第五章网络论坛信息的抽取与存储	第62-70页
5.1 网络论坛信息抽取	第62-66页
5.1.1 设计目标及抽取方案	第62-63页
5.1.2 信息抽取的整体架构设计	第63-64页
5.1.3 网页模板生成	第64-65页
5.1.4 抽取规则生成	第65-66页
5.1.5 信息抽取的相关数据表设计	第66页
5.2 论坛数据的存储	第66-68页
5.3 本章小结	第68-70页
第六章总结与展望	第70-72页
6.1 论文工作总结	第70-71页
6.2 工作展望	第71-72页
致谢	第72-74页
参考文献	第74-78页
附录A 攻读硕士期间公开发表的论文	第78-80页
附录B 攻读硕士期间参与完成的科研成果	第80页