词性特征提取及其在文本分析中的应用
摘要 | 第4-5页 |
ABSTRACT | 第5页 |
第一章 绪论 | 第8-11页 |
1.1 论文的研究背景和意义 | 第8-10页 |
1.2 论文的研究内容和组织结构 | 第10-11页 |
第二章 中文分词及词性标注 | 第11-21页 |
2.1 分词算法 | 第11-15页 |
2.1.1 基于字符串匹配的分词算法 | 第12-13页 |
2.1.2 基于理解的分词方法 | 第13页 |
2.1.3 基于统计的分词方法 | 第13-14页 |
2.1.4 分词算法中的难题 | 第14-15页 |
2.2 词性标注算法 | 第15-18页 |
2.2.1 词性标注的意义 | 第15-16页 |
2.2.2 词性标注的研究现状 | 第16-18页 |
2.3 开源分词系统简介 | 第18-21页 |
第三章 句子结构相似度计算方法 | 第21-29页 |
3.1 句子结构相似度研究现状 | 第21-22页 |
3.2 基于词性序列的句子结构相似度计算方法 | 第22-24页 |
3.2.1 关键成分分析 | 第22页 |
3.2.2 句子结构相似度算法设计 | 第22-24页 |
3.3 句子结构相似度计算实验 | 第24-27页 |
3.3.1 自选库实验结果 | 第24-25页 |
3.3.2 对比实验结果及分析 | 第25-27页 |
3.4 本章小结 | 第27-29页 |
第四章 以词性状态转移为特征的文本分类方法 | 第29-38页 |
4.1 词性特征选择 | 第29-30页 |
4.2 文本词性特征提取 | 第30-32页 |
4.2.1 词性序列 | 第30-31页 |
4.2.2 马尔科夫模型 | 第31页 |
4.2.3 构建词性的状态转移概率矩阵 | 第31-32页 |
4.3 分类实验 | 第32-38页 |
4.3.1 分类召回率和准确率 | 第32-33页 |
4.3.2 实验结果和分析 | 第33-38页 |
第五章 特征词性的科学选择 | 第38-49页 |
5.1 全词性分类实验 | 第38-43页 |
5.1.1 分类器介绍 | 第38-39页 |
5.1.2 实验结果和分析 | 第39-43页 |
5.2 基于统计的特征词性选择 | 第43-48页 |
5.2.1 词性统计信息 | 第43-45页 |
5.2.2 基于选定词性的分类实验 | 第45-48页 |
5.3 本章小结 | 第48-49页 |
第六章 总结和展望 | 第49-51页 |
参考文献 | 第51-54页 |
发表论文和参加科研情况说明 | 第54-55页 |
致谢 | 第55-56页 |