DNA序列分词方法的优化及应用
摘要 | 第4-5页 |
Abstract | 第5-6页 |
第1章 绪论 | 第9-16页 |
1.1 研究背景 | 第9-10页 |
1.2 研究目的及意义 | 第10-11页 |
1.3 研究现状 | 第11-13页 |
1.3.1 生物学实验方法 | 第11-12页 |
1.3.2 数据挖掘方法 | 第12-13页 |
1.3.3 语言学研究 | 第13页 |
1.4 研究目标 | 第13-14页 |
1.5 论文主要内容 | 第14-16页 |
第2章 基于机器学习的 DNA 序列分词 | 第16-32页 |
2.1 DNA 序列分词 | 第16-25页 |
2.1.1 条件随机场模型介绍 | 第16-19页 |
2.1.2 特征选取 | 第19-20页 |
2.1.3 特征模板及标注集选取 | 第20-21页 |
2.1.4 分词过程 | 第21-25页 |
2.2 DNA 序列的分词实验及结果分析 | 第25-31页 |
2.2.1 DNA 序列训练数据获取 | 第25页 |
2.2.2 DNA 序列分词结果的定量评测 | 第25-27页 |
2.2.3 DNA 序列分词结果的定性分析 | 第27-31页 |
2.3 本章小结 | 第31-32页 |
第3章 跨语言交叉分词方法 | 第32-44页 |
3.1 自然语言分词特征模板设计 | 第32-36页 |
3.1.1 自然语言数据介绍 | 第32-33页 |
3.1.2 自然语言分词特征模板设计 | 第33-36页 |
3.2 自然语言交叉分词算法 | 第36-37页 |
3.3 自然语言与 DNA 的交叉分词模型 | 第37-39页 |
3.4 DNA 与英文交叉编码分词算法 | 第39-43页 |
3.4.1 用 DNA 碱基字符编码英文 | 第39-40页 |
3.4.2 编码后模型切分 DNA 序列 | 第40-41页 |
3.4.3 用英文字符编码 DNA 序列 | 第41-43页 |
3.5 本章小结 | 第43-44页 |
第4章 特定局部区域的分词方法 | 第44-68页 |
4.1 数据获取及整理 | 第44-48页 |
4.2 数据的特征分析 | 第48-61页 |
4.2.1 字串频率分析 | 第49-52页 |
4.2.2 熵值数据分析 | 第52-56页 |
4.2.3 功能词语长度分布与参数筛选 | 第56-61页 |
4.3 分区域分词 | 第61-65页 |
4.4 同源基因分词 | 第65-66页 |
4.5 本章小结 | 第66-68页 |
第5章 基于最大概率分词的分词优化算法 | 第68-74页 |
5.1 最大概率分词基本思想 | 第68-69页 |
5.2 分词优化算法设计与实现 | 第69-72页 |
5.3 结果分析 | 第72-73页 |
5.4 本章小结 | 第73-74页 |
第6章 DNA 分词算法在功能模式分析上的应用 | 第74-81页 |
6.1 物种词典构建 | 第74-79页 |
6.1.1 各物种词典构建 | 第74-76页 |
6.1.2 物种间公共词典构建 | 第76-77页 |
6.1.3 物种特有词典构建 | 第77-78页 |
6.1.4 DNA 序列各功能区域特征词典构建 | 第78-79页 |
6.2 同现词分析 | 第79-80页 |
6.3 本章小结 | 第80-81页 |
结论 | 第81-83页 |
参考文献 | 第83-88页 |
致谢 | 第88页 |