首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

网络论坛舆情信息的收集与管理技术研究

摘要第4-5页
Abstract第5页
第一章 绪论第9-13页
    1.1 课题研究背景与意义第9页
    1.2 研究现状第9-11页
    1.3 本文主要完成的工作第11页
    1.4 本文的组织结构第11-13页
第二章 相关概念以及体系结构第13-31页
    2.1 BBS 概述第13-16页
        2.1.1. BBS 概念第13页
        2.1.2. BBS 的产生历史第13-14页
        2.1.3. BBS 的结构第14-16页
    2.2 网络爬虫概述第16-19页
        2.2.1 网络爬虫的概念第16-17页
        2.2.2 网页的抓取策略第17-18页
        2.2.3 网络爬虫分类第18-19页
    2.3 信息抽取技术第19-20页
        2.3.1 信息抽取技术基本概念第19页
        2.3.2 信息抽取技术分类第19-20页
    2.4 中文分词和索引概述第20-21页
        2.4.1 中文分词概念第20页
        2.4.2 中文分词方法第20-21页
        2.4.3 中文分词的难点第21页
    2.5 J2EE 平台概述第21-22页
    2.6 Spring 概述第22-25页
        2.6.1 Spring 简介第22-23页
        2.6.2 IoC 控制反转第23页
        2.6.3 DI 依赖注入第23-24页
        2.6.4 Spring 体系结构第24-25页
    2.7 DWR 概述第25-27页
        2.7.1 DWR 简介第25-26页
        2.7.2 DWR 使用步骤第26页
        2.7.3 dwr.xml 文件结构第26-27页
        2.7.4 DWR 的核心脚本 util.js第27页
    2.8 系统结构设计第27-29页
        2.8.1 系统模块结构第27-28页
        2.8.2 系统各模块功能第28-29页
    2.9 小结第29-31页
第三章 系统详细设计第31-59页
    3.1 网络爬虫设计第31-40页
        3.1.1 Heritrix 概述第31-32页
        3.1.2 Heritrix 工作原理第32-37页
        3.1.3 扩展 Heritrix 添加 extractor第37-40页
    3.2 信息提取设计第40-48页
        3.2.1 正则表达式与 Htmlparser第40-43页
        3.2.2 Htmlparser 高效提取网页内容第43-48页
    3.3. 网页内容存储第48-53页
        3.3.1 基本概念第48-49页
        3.3.2 Lucene 利用索引器 Index Writer 构建索引过程第49-50页
        3.3.3 BBS 数据存储建立第50-53页
    3.4 Spring 和 DWR 整合第53-57页
        3.4.1 配置文件第53-56页
        3.4.2 查询信息相关的类介绍第56-57页
    3.5 小结第57-59页
第四章 实验结果与分析第59-67页
    4.1 系统开发环境以及配置第59-60页
        4.1.1 开发环境第59页
        4.1.2 相关软件第59-60页
    4.2 实验过程第60-65页
        4.2.1 Heritrix 抓取 BBS 页面第60-61页
        4.2.2 Htmlparser 提取页面信息第61-62页
        4.2.3 存储页面信息和热帖查询第62-65页
    4.3 本章小结第65-67页
第五章 总结与展望第67-69页
参考文献第69-73页
致谢第73页

论文共73页,点击 下载论文
上一篇:基于测试驱动的在线调查网站设计与实现
下一篇:包商银行现金管理系统设计