首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

校园网搜索引擎中网页去重技术的研究

摘要第5-6页
Abstract第6-7页
引言第10-11页
1 绪论第11-22页
    1.1 研究背景第11-12页
    1.2 国内外研究现状第12-19页
        1.2.1 搜索引擎工作原理第12-13页
        1.2.2 校园网搜索引擎现状第13-14页
        1.2.3 文本复制检测技术研究现状第14-16页
        1.2.4 常用网页去重技术第16-19页
    1.3 课题研究意义第19-20页
    1.4 主要研究内容第20-21页
    1.5 本文组织结构第21-22页
2 相关技术研究第22-35页
    2.1 重复网页概述第22-25页
        2.1.1 重复网页定义及类型第23-24页
        2.1.2 网页去重意义第24页
        2.1.3 网页去重时机第24-25页
    2.2 网页净化与正文内容提取第25-30页
        2.2.1 网页噪音概述第25-26页
        2.2.2 网页净化与正文提取技术第26-30页
    2.3 中文分词第30-31页
    2.4 Nutch 插件机制第31-34页
    2.5 本章小结第34-35页
3 索引时网页去重算法研究第35-40页
    3.1 基于全文段落签名的去重算法第35-37页
        3.1.1 算法描述第35-36页
        3.1.2 算法分析第36-37页
    3.2 基于最长段落签名的网页去重算法第37-39页
        3.2.1 算法描述第37-39页
        3.2.2 算法分析第39页
    3.3 本章小结第39-40页
4 检索时网页去重算法研究第40-45页
    4.1 检索模块整体结构第40-41页
    4.2 基于傅立叶变换的网页去重算法第41-42页
    4.3 算法优化设计第42-43页
    4.4 算法分析第43-44页
    4.5 本章小结第44-45页
5 网页去重技术在校园网搜索引擎中的应用第45-65页
    5.1 校园网搜索引擎系统的设计和部署第45-49页
        5.1.1 校园网搜索引擎的设计第45-46页
        5.1.2 实现环境和系统部署第46-49页
    5.2 系统主要模块实现第49-55页
        5.2.1 Nutch 中添加中文分词第49-53页
        5.2.2 网页净化与正文提取第53-55页
    5.3 基于最长段落签名的网页去重算法实现第55-59页
        5.3.1 算法实现第55-56页
        5.3.2 实验结果及分析第56-59页
    5.4 优化傅立叶变换的网页去重算法实现第59-63页
        5.4.1 算法实现第59-61页
        5.4.2 实验结果及分析第61-63页
    5.5 系统运行第63-64页
    5.6 本章小结第64-65页
结论第65-67页
参考文献第67-72页
在学研究成果第72-73页
致谢第73页

论文共73页,点击 下载论文
上一篇:肺组织显微图像癌细胞识别技术研究
下一篇:基于K-同构算法的社会网络隐私保护研究