首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

一种改进Best-First算法的主题爬虫搜索算法研究

中文摘要第3-4页
英文摘要第4-5页
1 绪论第8-16页
    1.1 选题背景及研究意义第8-10页
    1.2 研究现状及难点问题第10-14页
        1.2.1 国内外研究现状第10-13页
        1.2.2 研究的难点问题第13-14页
    1.3 主要研究内容第14-15页
    1.4 论文的组织和安排第15-16页
2 相关理论与技术第16-26页
    2.1 网络爬虫基本原理第16-19页
        2.1.1 网络爬虫框架第16-17页
        2.1.2 爬虫搜索策略第17-19页
    2.2 主题爬虫工作流程第19-20页
    2.3 主题描述第20-21页
        2.3.1 关键词法第20页
        2.3.2 Ontology法第20-21页
        2.3.3 层次目录树法第21页
    2.4 网页预处理第21-25页
        2.4.1 HTML标签第21-22页
        2.4.2 网页标题和正文内容的提取第22-23页
        2.4.3 锚文本的提取第23-25页
        2.4.4 中文分词第25页
    2.5 本章小结第25-26页
3 基于页面内容评价的Best-First算法第26-38页
    3.1 概述第26页
    3.2 Best-First算法第26-32页
        3.2.1 基本思想第26页
        3.2.2 向量空间模型第26-29页
        3.2.3 权重计算方法第29-32页
    3.3 改进Best-First算法第32-37页
    3.4 本章小结第37-38页
4 实验及结果分析第38-44页
    4.1 评价标准第38-39页
    4.2 实验分析第39-43页
        4.2.1 实验环境简介第39页
        4.2.2 实验参数分析第39-40页
        4.2.3 实验结果分析第40-43页
    4.3 本章小结第43-44页
5 总结和展望第44-46页
    5.1 总结第44页
    5.2 展望第44-46页
致谢第46-47页
参考文献第47-50页
附录第50页

论文共50页,点击 下载论文
上一篇:基于权重设计的聚类集成算法研究
下一篇:不完备投影图像重建算法研究