首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于主题的互联网信息抓取研究

摘要第4-6页
Abstract第6-7页
第1章 绪论第15-27页
    1.1 互联网信息抓取的应用背景第16-18页
    1.2 主题抓取的研究内容第18-23页
        1.2.1 主题抓取问题的形式化描述第19-21页
        1.2.2 联网主题信息抓取挑战第21-23页
    1.3 主题信息抓取的研究现状第23-26页
    1.4 本文的组织结构第26-27页
第2章 相关研究第27-46页
    2.1 主题描述子的设计第27-31页
        2.1.1 基于关键词的主题描述第27-28页
        2.1.2 基于本体的主题描述第28-30页
        2.1.3 基于示例页面的主题描述第30-31页
    2.2 网页主题判断方法第31-40页
        2.2.1 网页特征建模第31-33页
        2.2.2 网页预处理第33-35页
        2.2.3 基于关键词匹配的主题判断第35-38页
        2.2.4 基于分类算法的主题判断第38-40页
    2.3 主题抓取策略第40-44页
        2.3.1 基于邻近节点主题相关性预测算法第41-42页
        2.3.2 基于网络结构的链接重要性预测第42-44页
        2.3.3 基于用户浏览模式的链接主题相关性预测第44页
    2.4 评估方法第44-45页
    2.5 本章小结第45-46页
第3章 基于主题知识库的互联网信息抓取框架第46-65页
    3.1 面向主题的互联网信息抓取特点第46-50页
        3.1.1 主题需求的开放性第46-47页
        3.1.2 主题聚焦的层次性第47-49页
        3.1.3 主题信息的局部性第49-50页
    3.2 基于主题知识库的互联网信息抓取框架第50-53页
        3.2.1 传统主题抓取框架第50-51页
        3.2.2 TKWC框架特点第51-53页
    3.3 主题知识库的作用与构成第53-56页
        3.3.1 主题知识库的作用第53-54页
        3.3.2 主题知识库的构成第54-56页
    3.4 主题知识的学习演化第56-59页
        3.4.1 基于网页内容的主题词集抽取第56-57页
        3.4.2 基于外部知识库的主题扩展第57-59页
    3.5 基于主题知识库的网页主题判断第59-61页
        3.5.1 基于主题知识库的网页主题判断方法第59-60页
        3.5.2 基于主题知识库的网页主题判断优势第60-61页
    3.6 主题富饶域挖掘第61-63页
        3.6.1 主题富饶域的定义第61页
        3.6.2 主题富饶域的类型第61-63页
        3.6.3 主题富饶域挖掘的优势第63页
    3.7 本章小结第63-65页
第4章 基于稳定词集的主题需求封闭方法第65-86页
    4.1 引言第65-66页
    4.2 主题抓取系统中的主题表达和获取方式第66-68页
    4.3 基于稳定词集的主题需求封闭方法第68-72页
        4.3.1 相关定义第68-69页
        4.3.2 基于主题词集的主题需求封闭流程第69-72页
    4.4 基于迭代式扩展-过滤框架的稳定词集构造方法第72-79页
        4.4.1 词集扩展方法第73-77页
        4.4.2 主题候选词集过滤第77-79页
    4.5 实验与讨论第79-85页
        4.5.1 主题词集扩展准确度第80页
        4.5.2 候选词集过滤准确度与滤出率第80-81页
        4.5.3 主题词集扩展收敛性第81-83页
        4.5.4 扩展算法敏感性第83-85页
    4.6 本章小结第85-86页
第5章 基于本体的主题网页抓取第86-105页
    5.1 研究背景第86-88页
    5.2 相关研究第88-94页
        5.2.1 基于本体的主题爬虫第88-91页
        5.2.2 网页特征降维方法第91-94页
    5.3 问题定义第94页
    5.4 基于本体的网页主题判断(OTRD)算法第94-100页
        5.4.1 基于本体的网页主题降维第95-98页
        5.4.2 网页结构特征权重分配第98页
        5.4.3 基于单类SVM的主题模型训练第98-100页
        5.4.4 基于单类SVM的主题判断第100页
    5.5 基于OTRD的主题网页抓取第100-101页
    5.6 实验与评估第101-103页
        5.6.1 实验方案第101页
        5.6.2 实验结果与分析第101-103页
    5.7 本章小结第103-105页
第6章 基于主题富饶域的抓取策略第105-122页
    6.1 引言第105-106页
    6.2 相关研究第106-108页
    6.3 网页主题聚焦特征第108-110页
    6.4 基于主题富饶域的抓取算法第110-117页
        6.4.1 相关定义第110-111页
        6.4.2 互联网主题域模型第111-112页
        6.4.3 主题富饶域优先算法第112-113页
        6.4.4 链接主题分析第113-114页
        6.4.5 主题域转移规则第114-115页
        6.4.6 URL选取策略第115-117页
    6.5 实验与评估第117-121页
        6.5.1 实验方案及运行参数第117页
        6.5.2 实验结果与分析第117-121页
    6.6 本章小结第121-122页
第7章 总结与展望第122-125页
    7.1 论文主要工作与贡献第122-123页
    7.2 未来研究展望第123-125页
参考文献第125-137页
攻读博士学位期间主要的研究成果第137-138页
致谢第138页

论文共138页,点击 下载论文
上一篇:基于复杂适应系统的组织结构演化研究
下一篇:基于临近空间平台的立体信息获取及可视化技术研究