首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于XML的文本结构信息抽取与聚类研究

摘要第6-7页
Abstract第7-8页
目录第9-13页
TABLE OF CONTENTS第13-16页
图目录第16-17页
表目录第17-19页
主要符号表第19-20页
1 绪论第20-42页
    1.1 XML技术第20-22页
    1.2 信息抽取第22-28页
        1.2.1 研究进展第24-25页
        1.2.2 抽取的对象第25-27页
        1.2.3 抽取的种类第27页
        1.2.4 存在的问题第27-28页
    1.3 XML相似度的度量第28-34页
        1.3.1 文档的表示与结构相似度度量第28-31页
        1.3.2 语义核第31-32页
        1.3.3 内容相似度与综合相似度第32-34页
        1.3.4 存在的问题第34页
    1.4 张量表示与特征降维第34-36页
        1.4.1 研究进展第34-36页
        1.4.2 存在的问题第36页
    1.5 XML聚类分析第36-38页
        1.5.1 常用聚类算法及相关工作第36-37页
        1.5.2 存在的问题第37-38页
    1.6 研究内容与研究思路第38-41页
        1.6.1 研究内容第38-39页
        1.6.2 研究思路第39-41页
    1.7 组织结构第41-42页
2 通用的文本层次结构抽取方法研究第42-62页
    2.1 隐马尔科夫模型第42-44页
        2.1.1 离散的马尔科夫过程第42页
        2.1.2 隐马尔科夫模型原理第42-44页
    2.2 HMM 算法分析第44-50页
        2.2.1 评估问题第44-46页
        2.2.2 学习问题第46-49页
        2.2.3 解码问题第49-50页
    2.3 通用的层次结构抽取模型SIEHMM第50-56页
        2.3.1 数据预处理第51-52页
        2.3.2 SIEHMM训练过程第52-55页
        2.3.3 SIEHMM的结构抽取第55-56页
    2.4 实验结果与分析第56-60页
        2.4.1 实验数据第57-58页
        2.4.2 SIEHMM实验结果第58-60页
    2.5 本章小结第60-62页
3 面向领域的文本层次结构抽取方法研究第62-76页
    3.1 条件随机场模型第62-65页
        3.1.1 最大熵和条件随机场模型第62-64页
        3.1.2 条件随机场的势函数第64-65页
    3.2 CRF的算法分析第65-70页
        3.2.1 CRF的学习问题第65-66页
        3.2.2 L-BFGS学习算法第66-68页
        3.2.3 CRF的评估问题第68-69页
        3.2.4 条件随机场的标注第69-70页
    3.3 领域的层次结构抽取模型SIECRF第70-73页
        3.3.1 特征函数构建第70-72页
        3.3.2 SIECRF的实现第72-73页
    3.4 实验结果及分析第73-74页
    3.5 本章小结第74-76页
4 XML结构相似度计算方法研究第76-94页
    4.1 XML文档结构向量化第76-79页
    4.2 基于路径模型的文档结构相似度第79-86页
        4.2.1 路径模型第79-80页
        4.2.2 路径相似度第80-82页
        4.2.3 文档结构相似度WLCS第82-83页
        4.2.4 WLCS实验结果与分析第83-86页
    4.3 基于频率路径模型的文档结构相似度第86-92页
        4.3.1 频率路径模型第86-87页
        4.3.2 频率位置权重第87-88页
        4.3.3 频率路径及文档相似度PFWLCS第88-89页
        4.3.4 PFWLCS实验结果与分析第89-92页
    4.4 本章小结第92-94页
5 XML综合相似度及聚类分析第94-107页
    5.1 传统线性综合法SCSC第94-97页
        5.1.1 改进的频率路径模型第95页
        5.1.2 综合相似度算法SCSC第95-97页
    5.2 非线性的张量综合法SCTA第97-102页
        5.2.1 XML文档的张量表示与特征降维第97-99页
        5.2.2 综合相似度算法SCTA第99-100页
        5.2.3 SCTA实验结果及分析第100-102页
    5.3 XML聚类分析第102-105页
        5.3.1 NCCS算法描述第102页
        5.3.2 NCCS算法分析第102-104页
        5.3.3 NCCS实验结果与分析第104-105页
    5.4 本章小结第105-107页
6 结论与展望第107-110页
    6.1 工作小结第107-108页
    6.2 创新点小结第108-109页
    6.3 工作展望第109-110页
参考文献第110-120页
攻读博士学位期间科研项目及科研成果第120-121页
致谢第121-122页
作者简介第122-123页

论文共123页,点击 下载论文
上一篇:作者合作网络的结构及其演化与预测研究
下一篇:汽车覆盖件冲压成形缺陷的仿真分析方法研究