首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

面向新闻领域的小型垂直搜索引擎

摘要第5-6页
Abstract第6页
第一章 前言第7-19页
    1.1 研究背景第7-8页
    1.2 垂直搜索引擎相关技术介绍第8-15页
        1.2.1 搜索引擎基本模块第8-10页
        1.2.2 网络爬虫第10-11页
        1.2.3 搜索引擎的索引第11-12页
        1.2.4 Lucene全文检索框架第12-14页
        1.2.5 文本挖掘第14-15页
    1.3 发展现状第15-17页
    1.4 本文主要内容和安排第17-19页
第二章 基于Heritrix的主题网络爬虫设计第19-28页
    2.1 Heritrix爬虫概述第19-21页
    2.2 Heritrix爬虫队列改进第21-22页
    2.3 定制Heritrix爬取规则第22-28页
第三章 新闻文本分类算法第28-41页
    3.1 文本分类算法概述第28-29页
    3.2 基于支持向量机的不均衡文本分类方法第29-40页
        3.2.1 理论介绍第29-34页
        3.2.2 基于支持向量机的文本分类算法优化第34-37页
        3.2.3 实验与结果分析第37-40页
    3.3 结论第40-41页
第四章 一种基于网页主题相关度和更新频率的PageRank算法第41-51页
    4.1 网页排序算法概述第41-43页
    4.2 对PageRank算法的改进第43-47页
    4.3 仿真实验第47-50页
        4.3.1 实验说明第47-48页
        4.3.2 结果分析第48-50页
    4.4 结论第50-51页
第五章 面向新闻领域的小型垂直搜索引擎分析与设计第51-60页
    5.1 功能需求第51页
    5.2 模块组成第51-55页
    5.3 系统结构第55-60页
第六章 面向新闻领域的小型垂直搜索引擎实现第60-86页
    6.1 开发环境第60-61页
    6.2 新闻搜索引擎数据库设计第61页
    6.3 网络爬虫模块的实现第61-66页
        6.3.1 种子站点管理程序第63页
        6.3.2 新闻爬虫管理程序第63-64页
        6.3.3 网页爬取状态程序第64-65页
        6.3.4 新闻网页管理程序第65-66页
    6.4 文本分类模块的实现第66-73页
        6.4.1 文本训练集管理程序第67-68页
        6.4.2 文本预处理程序第68-69页
        6.4.3 分类模型程序第69-73页
    6.5 PageRank模块的实现第73-75页
        6.5.1 网络链接结构图生成程序第74-75页
        6.5.2 PageRank计算程序第75页
    6.6 中文分词模块的实现第75-77页
    6.7 索引建立模块的实现第77-81页
        6.7.1 配置文件读取程序第78-79页
        6.7.2 数据索引建立程序第79-81页
    6.8 检索模块的实现第81-85页
        6.8.1 查询条件处理程序第82-83页
        6.8.2 信息查询程序第83-84页
        6.8.3 查询结果优化程序第84-85页
    6.9 结论第85-86页
第七章 总结与展望第86-88页
    7.1 总结第86-87页
    7.2 展望第87-88页
致谢第88-89页
参考文献第89-94页
作者简介第94页

论文共94页,点击 下载论文
上一篇:基于成员选择的半监督聚类融合算法的研究
下一篇:基于海计算的智慧教室智能节点设计与实现