首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于互联网的定义抽取研究

摘要第3-4页
Abstract第4-5页
第一章 绪论第8-13页
    1.1 研究背景第8页
    1.2 研究意义与内容第8-9页
    1.3 “定义”的概念与形式第9-10页
    1.4 相关研究概述第10-11页
        1.4.1 研究现状第10-11页
        1.4.2 定义抽取的困难第11页
    1.5 论文结构第11-13页
第二章 定义抽取语料库的构建第13-31页
    2.1 互联网语料第13-16页
        2.1.1 Wikipedia第13-15页
        2.1.2 搜狗全网新闻数据第15页
        2.1.3 互联网语料的定义标注第15-16页
    2.2 语言学处理第16-20页
        2.2.1 中文分词第16-18页
        2.2.2 句法分析第18-20页
    2.3 语料库的语言学标注第20-31页
        2.3.1 互联网语料预处理第20-24页
        2.3.2 语料库生成第24-29页
            2.3.2.1 Xerces2 Java Parser第24页
            2.3.2.2 XML 语料库生成模块设计第24-26页
            2.3.2.3 XML 语料库生成模块实现第26-29页
        2.3.3 语言学标注结果第29-31页
第三章 基于统计的定义抽取第31-67页
    3.1 特征选择第31-45页
        3.1.1 对数似然率第31-32页
        3.1.2 N-Gram第32-35页
        3.1.3 语法依赖关系第35-37页
        3.1.4 定义的语言学模式第37-39页
        3.1.5 定义隶属度第39-45页
            3.1.5.1 词语的定义隶属度第39-41页
            3.1.5.2 句子的最大定义隶属度第41-45页
    3.2 基于统计的分类方法第45-53页
        3.2.1 决策树第45-46页
        3.2.2 朴素贝叶斯第46-48页
        3.2.3 支持向量机第48-49页
        3.2.4 AdaBoost第49-51页
        3.2.5 随机森林第51-53页
    3.3 实验与分析第53-67页
        3.3.1 实验准备第53-63页
            3.3.1.1 语料相关特征集生成模块第53-57页
            3.3.1.2 XML 语料库向量转换模块第57-59页
            3.3.1.3 实验语料准备第59-61页
            3.3.1.4 R 语言第61-62页
            3.3.1.5 K 折交叉验证第62页
            3.3.1.6 评价指标第62-63页
        3.3.2 不同分类方法比较第63-64页
            3.3.2.1 实验方法第63页
            3.3.2.2 实验结果第63-64页
        3.3.3 不同 N-Gram Plus 数量的交叉验证第64-66页
            3.3.3.1 实验方法第64页
            3.3.3.2 实验结果第64-66页
        3.3.4 不同特征集的交叉验证第66页
            3.3.4.1 实验方法第66页
            3.3.4.2 实验结果第66页
        3.3.5 结果分析第66-67页
第四章 网页获取与信息抽取第67-82页
    4.1 网页批量获取第67-74页
        4.1.1 Google AJAX API第67-68页
        4.1.2 HttpClient第68页
        4.1.3 HtmlParser第68页
        4.1.4 多线程网页获取模块设计与实现第68-73页
            4.1.4.1 WebExtract 类第69-70页
            4.1.4.2 GoogleQuery 类第70-71页
            4.1.4.3 LinkTable 类第71-72页
            4.1.4.4 ThreadPoolHelper 类第72页
            4.1.4.5 HttpClientHelper 类第72-73页
        4.1.5 网页批量获取效果第73-74页
    4.2 网页信息抽取第74-80页
        4.2.1 NekoHTML第74页
        4.2.2 JoyDoc第74-75页
        4.2.3 网页信息抽取模块设计与实现第75-79页
            4.2.3.1 网页信息抽取函数第75页
            4.2.3.2 段落权重计算函数第75-79页
        4.2.4 网页信息抽取效果第79-80页
    4.3 互联网定义抽取实验第80-82页
        4.3.1 实验方法第80-81页
        4.3.2 实验结果第81-82页
第五章 互联网定义抽取模型第82-86页
    5.1 设计思想第82-83页
    5.2 互联网定义抽取模型设计第83-86页
结论第86-88页
参考文献第88-91页
作者简介及在读期间科研成果第91-92页
致谢第92页

论文共92页,点击 下载论文
上一篇:网格环境下空间联机分析服务的设计与实现--以福建省海洋功能区划数据集为例
下一篇:基于CBIR的网页配色方案分析与设计