首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

面向网上订餐的垂直搜索引擎的设计与实现

摘要第5-6页
ABSTRACT第6-7页
第一章 绪论第11-15页
    1.1 研究背景和意义第11页
    1.2 国内外的研究现状第11-13页
    1.3 本文的研究内容和结构安排第13-15页
        1.3.1 本文的研究内容第13-14页
        1.3.2 本文的结构安排第14-15页
第二章 垂直搜索引擎的相关理论知识第15-30页
    2.1 垂直搜索引擎的概述第15-16页
    2.2 垂直搜索引擎的原理及结构第16-17页
    2.3 聚焦网络爬虫技术第17-24页
        2.3.1 聚焦网络爬虫概述第17-18页
        2.3.2 Heritrix的系统架构第18-19页
        2.3.3 Heritrix的功能组件第19-21页
        2.3.4 Heritrix的扩展定制第21-23页
        2.3.5 网页去重技术第23-24页
    2.4 信息索引技术第24-29页
        2.4.1 HTML简介第24页
        2.4.2 网页内容提取第24-27页
        2.4.3 索引创建第27-29页
    2.5 本章小结第29-30页
第三章 基于多策略融合的聚焦网络爬虫模型第30-44页
    3.1 基于URL链接结构的网络爬虫策略第30-33页
        3.1.1 策略简介第30-32页
        3.1.2 优缺点分析第32-33页
    3.2 基于页面内容的网络爬虫策略第33-38页
        3.2.1 相关度判定第33-36页
        3.2.2 策略简介第36-37页
        3.2.3 优缺点分析第37-38页
    3.3 改进的聚焦网络爬虫策略第38-40页
    3.4 实验验证第40-43页
        3.4.1 实验环境及数据集第40页
        3.4.2 评价指标及实验设计第40-41页
        3.4.3 查准率对比分析第41-43页
    3.5 本章小结第43-44页
第四章 基于LUCENE搜索结果评分机制的改进第44-54页
    4.1 检索模型第44-47页
        4.1.1 布尔模型第44-45页
        4.1.2 向量空间模型第45-46页
        4.1.3 概率模型第46-47页
    4.2 Lucene自带的搜索结果评分机制第47-48页
        4.2.1 评分机制简介第47-48页
        4.2.2 优缺点分析第48页
    4.3 改进的Lucene评分机制第48-50页
        4.3.1 影响评分机制改进的因素第48-49页
        4.3.2 综合影响因素的改进第49-50页
    4.4 实验验证第50-53页
        4.4.1 实验环境及数据集第50页
        4.4.2 评价指标及实验设计第50-51页
        4.4.3 评分结果对比分析第51-53页
    4.5 本章小结第53-54页
第五章 面向网上订餐的垂直搜索引擎的设计与实现第54-69页
    5.1 系统的开发环境第54页
    5.2 系统的设计目标第54-55页
    5.3 系统的结构设计第55-56页
    5.4 系统功能模块的设计与实现第56-68页
        5.4.1 多策略融合的网络爬虫模块第56-58页
        5.4.2 网页内容提取模块第58-60页
        5.4.3 中文分词模块第60-62页
        5.4.4 索引建立模块第62-64页
        5.4.5 搜索结果排序模块第64-66页
        5.4.6 用户搜索及显示模块第66-68页
    5.5 本章小结第68-69页
第六章 系统测试第69-77页
    6.1 网页爬取测试第69-71页
    6.2 页面内容提取测试第71-72页
    6.3 索引测试第72-73页
    6.4 搜索引擎对比测试第73-76页
    6.5 本章小结第76-77页
第七章 结论第77-79页
    7.1 本文的主要贡献第77-78页
    7.2 下一步工作的展望第78-79页
致谢第79-80页
参考文献第80-84页

论文共84页,点击 下载论文
上一篇:基于视频的人体行为识别算法研究
下一篇:能源监测信息管理系统的设计与实现