首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

科技情报采集系统的设计及其快速文本聚类方法研究

摘要第4-5页
Abstract第5页
目录第6-9页
第1章 绪论第9-15页
    1.1 论文的研究背景和意义第9-10页
    1.2 国内外研究现状第10-12页
        1.2.1 科技情报采集研究现状第10-11页
        1.2.2 文本聚类研究现状第11-12页
    1.3 本文的研究内容第12-13页
    1.4 本文的组织结构第13页
    1.5 本章小结第13-15页
第2章 背景知识及相关技术第15-33页
    2.1 搜索引擎介绍第15-16页
    2.2 元搜索模型第16-17页
        2.2.1 基本概念第16页
        2.2.2 工作原理第16-17页
    2.3 垂直搜索模型第17-18页
        2.3.1 基本概念第17-18页
        2.3.2 工作原理第18页
    2.4 网页信息采集的工作原理及相关技术第18-22页
        2.4.1 网页信息采集策略第18-19页
        2.4.2 URL 调度方法第19-20页
        2.4.3 并行抓取策略第20-21页
        2.4.4 爬虫伪装策略第21页
        2.4.5 断点续传技术第21-22页
        2.4.6 网页中文本的解析第22页
    2.5 文本表示模型第22-25页
        2.5.1 布尔模型第22-23页
        2.5.2 向量空间模型第23-24页
        2.5.3 概率模型第24-25页
    2.6 基于 VSM 的文本相似度计算方法第25-26页
    2.7 文本聚类算法第26-29页
        2.7.1 基于划分的方法第26页
        2.7.2 基于层次的方法第26-27页
        2.7.3 基于密度的方法第27-28页
        2.7.4 基于网络的方法第28页
        2.7.5 基于模型的方法第28-29页
    2.8 几种经典算法的优缺点比较第29页
    2.9 文本聚类评价方法第29-31页
        2.9.1 基于 F 值的评价方法第30页
        2.9.2 基于熵的评价方法第30-31页
        2.9.3 Jaccard、Rand 及 FM 系数法第31页
    2.10 本章小结第31-33页
第3章 基于无监督的科技情报采集系统的设计第33-53页
    3.1 系统的设计目标第33页
    3.2 系统总体设计架构第33-36页
        3.2.1 系统结构设计第33-34页
        3.2.2 系统的基本流程第34-36页
    3.3 搜索模块第36页
        3.3.1 网页数据搜索模块第36页
        3.3.2 论文数据搜索模块第36页
    3.4 多线程控制模块第36-37页
    3.5 网页抓取中源码解析和数据格式化方法第37-38页
        3.5.1 源码解析方法第37页
        3.5.2 数据格式化方法第37-38页
    3.6 内存管理器第38页
    3.7 机群化运行策略第38-39页
    3.8 数据分析模块第39-42页
    3.9 系统运行及结果分析第42-52页
        3.9.1 数据采集第42-44页
        3.9.2 论文排名分析第44-49页
        3.9.3 论文引用分析第49-50页
        3.9.4 学术关注度分析第50-52页
    3.10 本章小结第52-53页
第4章 基于快速排序的文本聚类算法第53-69页
    4.1 算法的设计目标第53页
    4.2 算法的设计思想第53-54页
    4.3 快速排序算法第54页
    4.4 FTC 算法流程第54-59页
        4.4.1 定义第54-55页
        4.4.2 性质第55页
        4.4.3 执行步骤第55-59页
    4.5 算法优化策略第59-60页
        4.5.1 随机化快速排序策略第59-60页
        4.5.2 递归转换策略第60页
    4.6 算法评价第60-61页
    4.7 实验测试与分析第61-68页
        4.7.1 实验设计第61-62页
        4.7.2 聚类阈值对结果的影响第62-63页
        4.7.3 不同文本聚类算法的结果对比第63-66页
        4.7.4 不同文本聚类算法的时间对比第66-68页
        4.7.5 实验结果分析第68页
    4.8 本章小结第68-69页
结束语第69-71页
参考文献第71-75页
攻读硕士期间所发表的学术论文第75-77页
致谢第77页

论文共77页,点击 下载论文
上一篇:深度图像的填充与点云数据的优化
下一篇:基于虚拟现实技术的地震紧急疏散演练模拟研究