摘要 | 第1-5页 |
Abstract | 第5-7页 |
目录 | 第7-11页 |
图目录 | 第11-13页 |
表目录 | 第13-14页 |
第一章 引言 | 第14-27页 |
·句子级新信息检测产生的背景 | 第14-19页 |
·信息增长的现状与需求特点 | 第14-15页 |
·文档级信息检索技术 | 第15-17页 |
·自动问答系统 | 第17-18页 |
·句子级新信息检测 | 第18-19页 |
·Noovel系统的总体架构 | 第19-21页 |
·已知信息 | 第19-21页 |
·子任务 | 第21页 |
·新信息检测的相关技术 | 第21-23页 |
·信息检索 | 第21-22页 |
·信息过滤 | 第22页 |
·文本分类 | 第22页 |
·自动文摘 | 第22页 |
·自然语言理解 | 第22-23页 |
·评测方法与测试平台 | 第23-25页 |
·发展历程 | 第23-24页 |
·评价方法 | 第24-25页 |
·测试数据集 | 第25页 |
·论文的组织结构 | 第25-27页 |
第二章 句子检索与新信息检测的主要算法模型 | 第27-37页 |
·概述 | 第27-28页 |
·句子检索方法综述 | 第28-32页 |
·传统的文档检索方法 | 第28-29页 |
·信息过滤方法 | 第29页 |
·分类方法 | 第29-30页 |
·语义比较方法 | 第30-31页 |
·隐马模型(HMM)方法 | 第31-32页 |
·自动文摘方法 | 第32页 |
·新信息检测方法综述 | 第32-35页 |
·词重叠度 | 第33页 |
·最大区间相关度(Maximum Marginal Relevance) | 第33页 |
·Cosine冗余度 | 第33页 |
·命名实体触发方法 | 第33-34页 |
·统计机器翻译模型 | 第34-35页 |
·LexRank方法 | 第35页 |
·本章小结 | 第35-37页 |
第三章 Noovel特定的浅层语言分析 | 第37-66页 |
·自然语言的特点与语言计算分析 | 第37-40页 |
·自然语言的特点 | 第37-38页 |
·自然语言的计算分析 | 第38-39页 |
·自然语言分析的不同层次知识 | 第39-40页 |
·新信息检测与浅层语言分析 | 第40-41页 |
·英文浅层分析 | 第41-46页 |
·英文断句(Sentence Boundary Detection)与词汇切分(Tokenization) | 第41-43页 |
·词性标注(Part-Of-Speech Tagging) | 第43-45页 |
·词干抽取(Stemming)与词形还原(Morphplogical Normalization) | 第45-46页 |
·停用词处理与特征选择 | 第46-49页 |
·停用词处理 | 第47页 |
·特征选择 | 第47-48页 |
·浅层语言分析的中间结果 | 第48-49页 |
·查询分析 | 第49-51页 |
·汉语浅层分析与ICTCLAS | 第51-64页 |
·层次隐马模型和汉语浅层语言分析 | 第53-56页 |
·基于类的隐马分词算法 | 第56-57页 |
·N-最短路径的切分排歧策略 | 第57-59页 |
·未登录词的隐马识别方法 | 第59-61页 |
·实验与分析 | 第61-64页 |
·本章小结 | 第64-66页 |
第四章 Noovel句子检索算法与分析 | 第66-85页 |
·概述 | 第66页 |
·向量空间模型及其扩展 | 第66-75页 |
·向量空间模型基本思想 | 第67页 |
·向量空间表示法 | 第67-68页 |
·查询相关性计算 | 第68页 |
·特征权重估计与规格化 | 第68-70页 |
·句子检索的查询扩展 | 第70-75页 |
·概率检索模型 | 第75-76页 |
·语言模型检索(Language Modeling IR) | 第76-78页 |
·语言模型的基本思想 | 第76-78页 |
·句子级语言模型的改进 | 第78页 |
·句子检索实验与分析 | 第78-83页 |
·浅层语言分析的贡献度实验 | 第78-80页 |
·三种句子检索模型的基准实验 | 第80-82页 |
·查询扩展实验 | 第82-83页 |
·本章小结 | 第83-85页 |
第五章 Noovel新信息检测技术 | 第85-93页 |
·概述 | 第85页 |
·词重叠度及其扩展(Word Overlapping) | 第85-87页 |
·基于词重叠度的句子新颖度计算 | 第85-86页 |
·带权重的词重叠度计算 | 第86-87页 |
·相似度比较方法(Similarity Margin) | 第87页 |
·信息增强评价方法(Information Increment) | 第87-88页 |
·其他方法 | 第88-91页 |
·语言模型(Language Model) | 第88-89页 |
·句子语义距离计算方法(Sentence Semantic Distance) | 第89-91页 |
·新信息检测试验与分析 | 第91-92页 |
·本章小结 | 第92-93页 |
第六章 监督学习条件下的句子检索与新信息检测 | 第93-100页 |
·概述 | 第93-94页 |
·监督学习环境下的参数调整与阈值设置 | 第94-96页 |
·基于分类的句子检索与新信息检测方法 | 第96-98页 |
·实验与分析 | 第98-99页 |
·监督实验一 | 第98页 |
·监督实验二 | 第98-99页 |
·本章小结 | 第99-100页 |
第七章 Noovel系统在TREC2004新信息检测任务中的公开评测 | 第100-108页 |
·概述 | 第100-101页 |
·任务1测试结果与对比 | 第101-103页 |
·任务2测试结果与对比 | 第103-104页 |
·任务3测试结果与对比 | 第104-105页 |
·任务4测试结果与对比 | 第105-106页 |
·本章小结 | 第106-108页 |
第八章 结束语 | 第108-113页 |
·本文主要贡献与创新 | 第108-109页 |
·下一步研究方向 | 第109-110页 |
·前景与展望 | 第110-113页 |
·可排重、更精细的信息检索与过滤平台 | 第110-111页 |
·可订制的新闻摘要(Customized News Abstraction;CNA) | 第111页 |
·新信息检测辅助阅读器(Noovel Aided Reader;NAR) | 第111-113页 |
附录1.TREC 2004 Novelty Track Guidelines | 第113-118页 |
Summary | 第113页 |
Goal | 第113-114页 |
Tasks | 第114页 |
Topics and Documents | 第114-115页 |
Task and training data restrictions | 第115页 |
Format of results | 第115-116页 |
Evaluation | 第116-117页 |
Definition for new and relevant | 第117-118页 |
附录2.Penn Treebank Tagset | 第118-119页 |
参考文献 | 第119-129页 |
致谢 | 第129-131页 |
作者简历 | 第131-133页 |