从大规模Web语料中获取常识语料
摘要 | 第1-7页 |
英文摘要 | 第7-9页 |
目录 | 第9-12页 |
图目录 | 第12-13页 |
表目录 | 第13-15页 |
第一章 引言 | 第15-27页 |
·文本常识获取的研究意义 | 第15-16页 |
·常识获取的研究现状 | 第16-21页 |
·常识的集中式人工获取——Cyc | 第16-17页 |
·常识的公众获取——OMCS | 第17页 |
·通过类比来获取常识 | 第17-18页 |
·从文本中自动获取常识 | 第18-21页 |
·文本常识获取相关理论和技术 | 第21-22页 |
·Web 上的信息抽取 | 第21页 |
·机器阅读 | 第21-22页 |
·Web 语料常识获取面临的困难 | 第22-24页 |
·关于本论文 | 第24-27页 |
·主要研究内容 | 第24-25页 |
·论文组织 | 第25-27页 |
第二章 从Web 语料手工获取常识的实验 | 第27-37页 |
·实验目的 | 第27页 |
·实验过程 | 第27-29页 |
·实验结果分析 | 第29-33页 |
·一致性检验 | 第29-30页 |
·相合性检验 | 第30-32页 |
·获取结果相似性检验 | 第32-33页 |
·刻画句子的常识获取合适程度的两个特征 | 第33-37页 |
·语义相关词的共现率 | 第33-34页 |
·体词的认知显著性 | 第34-37页 |
第三章 从Web 语料筛选品优句子 | 第37-43页 |
·从Web 网页抽取句子 | 第37页 |
·句子的词级别预处理 | 第37-40页 |
·分词和词性标注 | 第37-38页 |
·词性标记处理策略 | 第38-39页 |
·命名实体处理策略 | 第39页 |
·古文处理策略 | 第39-40页 |
·品优句子筛选规则 | 第40-43页 |
第四章 从Web 语料获取带权词汇网络 | 第43-59页 |
·词汇网络 | 第43-45页 |
·词汇网络与常识获取 | 第43-44页 |
·相关的语言网络研究 | 第44-45页 |
·带权词汇网络的获取 | 第45-56页 |
·带权词汇网络中的词 | 第45-46页 |
·带权词汇网络中的词性二元搭配关系 | 第46-53页 |
·带权词汇网络训练算法 | 第53-54页 |
·带权词汇网络清洗算法 | 第54-56页 |
·带权词汇网络与语言模型和依存语法的比较 | 第56-59页 |
第五章 体词的认知显著性 | 第59-65页 |
·基本层次范畴 | 第59-60页 |
·基于Web 语料的体词认知显著性度量 | 第60-65页 |
·基于Web 语料的体词关系网络 | 第61-62页 |
·根据体词关系网络计算认知显著性 | 第62-65页 |
第六章 句子的常识获取合适程度分析 | 第65-83页 |
·句子词汇网络 | 第65-68页 |
·句子的常识获取难度分析 | 第68-72页 |
·基于句子词汇网络的特征提取 | 第69-70页 |
·基于体词认知显著性的特征提取 | 第70页 |
·实验结果与分析 | 第70-72页 |
·句子的常识丰富度分析 | 第72-83页 |
·极小语义成分 | 第72-78页 |
·语义成分的概率估计 | 第78页 |
·极小语义成分的扩展 | 第78-83页 |
第七章 结束语及进一步研究 | 第83-87页 |
附录1 允许语气词 | 第87-89页 |
附录2 允许助词 | 第89-91页 |
附录3 允许拟声词 | 第91-93页 |
附录4 允许叹词 | 第93-95页 |
附录5 允许简称(部分) | 第95-97页 |
附录6 允许前接成分 | 第97-99页 |
附录7 允许后接成分 | 第99-101页 |
附录8 允许处所词(部分) | 第101-103页 |
附录9 允许体词性习用语(部分) | 第103-105页 |
附录10 允许谓词性习用语(部分) | 第105-107页 |
附录11 禁止单字词(部分) | 第107-109页 |
附录12 类型确定代词 | 第109-111页 |
附录13 常识时间词(部分) | 第111-113页 |
附录14 并列连词 | 第113-115页 |
附录15 否定副词 | 第115-117页 |
附录16 具有否定意义的形容词 | 第117-119页 |
附录17 具有否定意义的动词 | 第119-121页 |
参考文献 | 第121-126页 |
致谢 | 第126-127页 |
作者简介 | 第127页 |