基于关键词的主题追踪系统的研究
致谢 | 第1-6页 |
中文摘要 | 第6-7页 |
ABSTRACT | 第7-11页 |
1 引言 | 第11-21页 |
·课题背景 | 第11页 |
·TDT的研究历史 | 第11-13页 |
·TDT的研究目标 | 第13-14页 |
·TDT的主要任务 | 第14-18页 |
·对新闻报道的切分 | 第15页 |
·新事件识别 | 第15-16页 |
·报道关系检测 | 第16-17页 |
·主题检测 | 第17页 |
·主题追踪 | 第17-18页 |
·本文研究的主要内容 | 第18-19页 |
·论文结构 | 第19-21页 |
2 主题追踪 | 第21-31页 |
·基本概念 | 第21-22页 |
·主题(topic) | 第21-22页 |
·事件(event) | 第22页 |
·故事(story) | 第22页 |
·主题追踪的任务 | 第22-24页 |
·主题追踪任务的定义 | 第23页 |
·主题追踪任务描述 | 第23页 |
·主题追踪任务的特点 | 第23-24页 |
·追踪器的构建 | 第24-25页 |
·主题追踪的研究现状 | 第25-28页 |
·导航研究 | 第25-26页 |
·历年参加主题追踪评测使用的方法 | 第26-28页 |
·主题追踪的评价指标 | 第28-31页 |
3 基于文本分类的主题追踪系统 | 第31-69页 |
·问题描述 | 第32-33页 |
·文本预处理 | 第33-39页 |
·分词 | 第33-38页 |
·停用词处理 | 第38页 |
·词性标注 | 第38-39页 |
·特征选择 | 第39-45页 |
·文档频率 | 第40页 |
·信息增益 | 第40-41页 |
·互信息 | 第41-42页 |
·χ~2统计 | 第42页 |
·基于类内频率的特征选择函数 | 第42-43页 |
·实验结果与分析 | 第43-45页 |
·权重计算 | 第45-49页 |
·TF*IDF权重 | 第46-47页 |
·TF*DIFF权重 | 第47-48页 |
·TF*IDF*DIFF权重 | 第48页 |
·实验结果和分析 | 第48-49页 |
·文本表示模型 | 第49-51页 |
·向量空间模型 | 第49-50页 |
·中心向量模型 | 第50-51页 |
·分类方法 | 第51-60页 |
·简单向量距离分类法 | 第51页 |
·Rocchio分类法 | 第51-52页 |
·贝叶斯分类法 | 第52-54页 |
·KNN分类法 | 第54-55页 |
·支持向量机方法 | 第55-58页 |
·实验结果与分析 | 第58-60页 |
·主题追踪的实现过程 | 第60-68页 |
·主题追踪的策略 | 第61-62页 |
·实验结果及分析 | 第62-68页 |
·小结 | 第68-69页 |
4 基于一元语法模型的主题追踪系统 | 第69-79页 |
·一元语法模型 | 第69-71页 |
·一元语法模型的实现过程 | 第71-76页 |
·基于BOW的主题追踪系统 | 第72页 |
·基于BOP的主题追踪系统 | 第72-76页 |
·实验结果及分析 | 第76-79页 |
·平滑参数选取 | 第76-77页 |
·特征数目对主题追踪性能的影响 | 第77页 |
·结果分析 | 第77-78页 |
·下一步的工作 | 第78-79页 |
5 主题追踪系统的设计和实现 | 第79-89页 |
·系统的结构 | 第79-80页 |
·系统功能和演示 | 第80-86页 |
·实验结果及分析 | 第86-89页 |
6 结论 | 第89-91页 |
·全文小结 | 第89-90页 |
·未来工作的展望 | 第90-91页 |
参考文献 | 第91-95页 |
作者简历 | 第95-99页 |
学位论文数据集 | 第99页 |