基于子串的文本分割与主题标注研究
摘要 | 第1-8页 |
Abstract | 第8-17页 |
第1章 绪论 | 第17-45页 |
·引言 | 第17-20页 |
·国内外研究现状 | 第20-42页 |
·文本分割 | 第20-25页 |
·文本表示 | 第25-30页 |
·段落抽取 | 第30-33页 |
·序列标注 | 第33-38页 |
·主题标注 | 第38-42页 |
·本文研究内容 | 第42-44页 |
·全文组织结构 | 第44-45页 |
第2章 基于子串的文本分割 | 第45-67页 |
·文档模型 | 第45-53页 |
·后缀树文档模型 | 第45-47页 |
·后缀树的构造 | 第47-49页 |
·基于子串的文本表示 | 第49-50页 |
·n元子串和n元组 | 第50-53页 |
·基于正则化割准则的文本分割算法 | 第53-57页 |
·文本连贯性 | 第53页 |
·文本分割算法 | 第53-55页 |
·分割粒度的确定 | 第55-57页 |
·实验与分析 | 第57-66页 |
·实验数据集 | 第57-59页 |
·中英文混合文本的表示 | 第59-61页 |
·文本分割实验结果与分析 | 第61-66页 |
·小结 | 第66-67页 |
第3章 基于子串的段落抽取 | 第67-80页 |
·基于子串的查询敏感最大割算法 | 第67-71页 |
·段落抽取的依据 | 第67-68页 |
·连贯性割与相关性割 | 第68-69页 |
·基于多目标优化的动态文本分割 | 第69-71页 |
·基于子串的查询扩展 | 第71-74页 |
·查询扩展 | 第71-72页 |
·SQMC相关反馈 | 第72-73页 |
·SQMC查询扩展 | 第73-74页 |
·实验与分析 | 第74-79页 |
·基准方法 | 第74页 |
·实验数据集与评估标准 | 第74-75页 |
·段落抽取实验结果与分析 | 第75-79页 |
·小结 | 第79-80页 |
第4章 半监督命名实体识别 | 第80-95页 |
·K近似条件随机场 | 第80-86页 |
·k-CRF的定义 | 第80-82页 |
·k-CRF的标注算法 | 第82-83页 |
·k-CRF的训练算法 | 第83-85页 |
·k-CRF的特征 | 第85-86页 |
·词语相似性计算 | 第86-91页 |
·向量表示 | 第87-88页 |
·向量相似性 | 第88-89页 |
·向量正则化 | 第89-90页 |
·向量降维 | 第90页 |
·单值分解 | 第90-91页 |
·实验与分析 | 第91-93页 |
·小结 | 第93-95页 |
第5章 基于子串的文本主题标注 | 第95-110页 |
·基于子串的文本主题标注算法 | 第95-101页 |
·标记特征权重计算 | 第95-96页 |
·标记的重要性度量 | 第96-98页 |
·高覆盖性标记 | 第98-99页 |
·多文档协同标注 | 第99-101页 |
·子串的选择 | 第101-103页 |
·基于术语表的子串选择 | 第101-102页 |
·子串的位置 | 第102-103页 |
·实验与分析 | 第103-109页 |
·主题标注的评价 | 第103-104页 |
·实验方法与参数选择 | 第104-106页 |
·实验结果 | 第106-109页 |
·小结 | 第109-110页 |
第6章 文本主题分析原型系统 | 第110-115页 |
·系统结构 | 第110-111页 |
·原型系统 | 第111-115页 |
第7章 总结与展望 | 第115-117页 |
参考文献 | 第117-129页 |
攻读博士学位期间发表的论文 | 第129-130页 |
致谢 | 第130页 |