首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

基于Nutch的网络爬虫及主题搜索引擎系统的设计与实现

摘要第4-6页
ABSTRACT第6-7页
第一章 绪论第10-15页
    1.1 研究背景及意义第10-11页
    1.2 前人研究工作综述第11-13页
    1.3 研究内容与目标第13-14页
    1.4 本文的内容和章节安排第14-15页
第二章 相关技术研究综述第15-29页
    2.1 搜索引擎概述第15-18页
    2.2 主题搜索引擎的工作原理第18-20页
        2.2.1 主题搜索引擎的特点第18-19页
        2.2.2 主题搜索引擎的信息采集技术第19-20页
    2.3 中文分词技术第20-21页
        2.3.1 中文分词技术概要第20-21页
        2.3.2 中文分词常用手段第21页
    2.4 开源网络爬虫Nutch第21-23页
        2.4.1 Nutch的基本原理第22-23页
        2.4.2 Nutch工作流程分析第23页
    2.5 Apache Solr索引服务器第23-25页
        2.5.1 Solr基本功能第24页
        2.5.2 Solr服务原理第24-25页
    2.6 朴素贝叶斯算法第25-28页
        2.6.1 贝叶斯公式和极大后验假设第25-26页
        2.6.2 朴素贝叶斯分类器第26-28页
    2.7 开发环境第28页
    2.8 本章小结第28-29页
第三章 基于Nutch的主题搜索引擎系统设计第29-44页
    3.1 系统功能设计分析第29-30页
    3.2 设计目标及总体方案第30页
    3.3 系统的总体框架和工作流程第30-32页
    3.4 系统各个功能模块设计第32-43页
        3.4.1 信息采集模块设计第32-37页
        3.4.2 主题过滤模块的设计第37-39页
        3.4.3 信息预处理模块的设计第39-43页
    3.5 本章小结第43-44页
第四章 基于Nutch的搜索引擎系统实现第44-73页
    4.1 信息采集模块实现第44-52页
        4.1.1 静态页面内容抓取实现第45-46页
        4.1.2 动态抽取模块插件设计与实现第46-52页
    4.2 主题过滤模块实现第52-61页
        4.2.1 文本预处理过程实现第53-54页
        4.2.2 贝叶斯分类算法实现第54-61页
    4.3 信息预处理模块实现第61-65页
        4.3.1 文档建模及倒排索引过程实现第61-62页
        4.3.2 中文分词实现第62-65页
    4.4 基于Nutch的主题搜索引擎系统部署及运行第65-67页
    4.5 实验结果第67-72页
        4.5.1 搜索界面的展示第67-68页
        4.5.2 主题网络爬虫性能测评第68-69页
        4.5.3 主题相关结果的判断第69-72页
    4.6 总结第72-73页
第五章 结束语第73-75页
    5.1 论文工作总结第73-74页
    5.2 问题和展望第74-75页
参考文献第75-78页
致谢第78页

论文共78页,点击 下载论文
上一篇:分布式多数据源电商数据融合分析系统
下一篇:跨国电商贸易平台设计与实现