网络论坛舆情信息的收集与管理技术研究

摘要	第4-5页
Abstract	第5页
第一章绪论	第9-13页
1.1 课题研究背景与意义	第9页
1.2 研究现状	第9-11页
1.3 本文主要完成的工作	第11页
1.4 本文的组织结构	第11-13页
第二章相关概念以及体系结构	第13-31页
2.1 BBS 概述	第13-16页
2.1.1. BBS 概念	第13页
2.1.2. BBS 的产生历史	第13-14页
2.1.3. BBS 的结构	第14-16页
2.2 网络爬虫概述	第16-19页
2.2.1 网络爬虫的概念	第16-17页
2.2.2 网页的抓取策略	第17-18页
2.2.3 网络爬虫分类	第18-19页
2.3 信息抽取技术	第19-20页
2.3.1 信息抽取技术基本概念	第19页
2.3.2 信息抽取技术分类	第19-20页
2.4 中文分词和索引概述	第20-21页
2.4.1 中文分词概念	第20页
2.4.2 中文分词方法	第20-21页
2.4.3 中文分词的难点	第21页
2.5 J2EE 平台概述	第21-22页
2.6 Spring 概述	第22-25页
2.6.1 Spring 简介	第22-23页
2.6.2 IoC 控制反转	第23页
2.6.3 DI 依赖注入	第23-24页
2.6.4 Spring 体系结构	第24-25页
2.7 DWR 概述	第25-27页
2.7.1 DWR 简介	第25-26页
2.7.2 DWR 使用步骤	第26页
2.7.3 dwr.xml 文件结构	第26-27页
2.7.4 DWR 的核心脚本 util.js	第27页
2.8 系统结构设计	第27-29页
2.8.1 系统模块结构	第27-28页
2.8.2 系统各模块功能	第28-29页
2.9 小结	第29-31页
第三章系统详细设计	第31-59页
3.1 网络爬虫设计	第31-40页
3.1.1 Heritrix 概述	第31-32页
3.1.2 Heritrix 工作原理	第32-37页
3.1.3 扩展 Heritrix 添加 extractor	第37-40页
3.2 信息提取设计	第40-48页
3.2.1 正则表达式与 Htmlparser	第40-43页
3.2.2 Htmlparser 高效提取网页内容	第43-48页
3.3. 网页内容存储	第48-53页
3.3.1 基本概念	第48-49页
3.3.2 Lucene 利用索引器 Index Writer 构建索引过程	第49-50页
3.3.3 BBS 数据存储建立	第50-53页
3.4 Spring 和 DWR 整合	第53-57页
3.4.1 配置文件	第53-56页
3.4.2 查询信息相关的类介绍	第56-57页
3.5 小结	第57-59页
第四章实验结果与分析	第59-67页
4.1 系统开发环境以及配置	第59-60页
4.1.1 开发环境	第59页
4.1.2 相关软件	第59-60页
4.2 实验过程	第60-65页
4.2.1 Heritrix 抓取 BBS 页面	第60-61页
4.2.2 Htmlparser 提取页面信息	第61-62页
4.2.3 存储页面信息和热帖查询	第62-65页
4.3 本章小结	第65-67页
第五章总结与展望	第67-69页
参考文献	第69-73页
致谢	第73页