面向主题的文档摘要技术研究
摘要 | 第1-5页 |
Abstract | 第5-8页 |
1 引言 | 第8-11页 |
·课题研究的目的和意义 | 第8页 |
·国内外现状 | 第8-9页 |
·论文的组织结构 | 第9-11页 |
2 面向主题的摘要相关技术概要 | 第11-25页 |
·信息检索 | 第11-15页 |
·信息检索中的倒排索引 | 第11-12页 |
·数据库中的索引 | 第12-14页 |
·数据库中的全文检索 | 第14-15页 |
·结构化与非结构化数据融合 | 第15页 |
·向量空间模型 | 第15-19页 |
·权重计算 | 第16-17页 |
·相似度计算 | 第17-18页 |
·相似度计算举例 | 第18-19页 |
·关键词提取 | 第19-20页 |
·基于统计的方法 | 第19页 |
·基于机器学习的方法 | 第19-20页 |
·基于语言学的方法 | 第20页 |
·自动文摘技术概要 | 第20-25页 |
·基于抽取的自动文摘 | 第20-22页 |
·基于理解的自动文摘 | 第22-23页 |
·自动文摘方法概述 | 第23-25页 |
3 海量信息垂直搜索 | 第25-31页 |
·LJSearch | 第25-26页 |
·索引压缩 | 第25页 |
·内存交换 | 第25-26页 |
·增量索引 | 第26页 |
·数据库检索 | 第26-28页 |
·标准检索 | 第28-31页 |
·题录信息检索 | 第29-30页 |
·详细信息检索 | 第30-31页 |
4 基于关键词提取的自动摘要 | 第31-39页 |
·文本预处理 | 第31-32页 |
·去除停用词 | 第32页 |
·双数组Trie树 | 第32-35页 |
·关键词提取 | 第35-37页 |
·词的tf-idf特征 | 第35页 |
·词的AV(Accessor Variety)值 | 第35-36页 |
·词的位置局部性 | 第36-37页 |
·词所在句子的位置 | 第37页 |
·词的权重计算 | 第37页 |
·句子切分 | 第37页 |
·句子相似度计算 | 第37-39页 |
·句子冗余度 | 第38-39页 |
5 面向主题的摘要 | 第39-44页 |
·改进的最大边缘相关度方法 | 第40-41页 |
·面向主题的词特征统计 | 第41页 |
·领域主题词表 | 第41-42页 |
·句子之间的包含关系 | 第42-44页 |
·带权包含度 | 第43-44页 |
6 实验与分析 | 第44-48页 |
·稳定性测试 | 第44页 |
·时间性能 | 第44-46页 |
·标准垂直搜索系统检索性能测试 | 第44-45页 |
·响应时间测试 | 第45-46页 |
·文摘质量 | 第46-48页 |
7 总结与展望 | 第48-49页 |
·本文工作总结 | 第48页 |
·下一步研究方向 | 第48-49页 |
参考文献 | 第49-51页 |
申请学位期间的研究成果及发表的学术论文 | 第51-52页 |
致谢 | 第52页 |