开源中文分词器的比较研究
| 摘要 | 第1-5页 |
| Abstract | 第5-6页 |
| 目录 | 第6-9页 |
| 1 引言 | 第9-17页 |
| ·研究背景与意义 | 第9-12页 |
| ·国内外研究现状 | 第12-16页 |
| ·中文分词的理论研究 | 第12-14页 |
| ·中文分词的应用研究 | 第14-16页 |
| ·研究内容与方法 | 第16页 |
| ·本文的创新之处 | 第16页 |
| ·结构安排 | 第16-17页 |
| 2 中文分词器的原理与评测标准 | 第17-31页 |
| ·中文分词器的原理和工作流程 | 第17-20页 |
| ·中文分词器的词典组织结构 | 第20-23页 |
| ·基于整词二分的分词词典机制 | 第20-21页 |
| ·基于TRIE索引树的分词词典机制 | 第21-22页 |
| ·基于逐字二分的分词词典机制 | 第22页 |
| ·基于双字哈希的分词词典机制 | 第22-23页 |
| ·常用中文分词算法 | 第23-27页 |
| ·中文分词研究所面临的问题 | 第27-29页 |
| ·歧义词处理 | 第27-28页 |
| ·新词识别 | 第28-29页 |
| ·中文分词器的评测标准 | 第29-30页 |
| ·本章小结 | 第30-31页 |
| 3 试验方案和试验准备 | 第31-40页 |
| ·研究对象的筛选 | 第31-35页 |
| ·试验方案与安排 | 第35-40页 |
| ·文档收集与资料准备 | 第35-38页 |
| ·试验安排 | 第38页 |
| ·测试环境介绍 | 第38-40页 |
| 4 评测试验 | 第40-60页 |
| ·测试环境的搭建与分词效果测试 | 第40-48页 |
| ·分词器的安装与测试环境搭建 | 第40-44页 |
| ·分词效果测试 | 第44-48页 |
| ·准确率测试 | 第48-53页 |
| ·icwb2-data标准语料的评测方法 | 第48-50页 |
| ·icwb2-data标准语料评测结果的解读 | 第50-51页 |
| ·icwb2-data标准语料评测结果分析 | 第51-53页 |
| ·单项测试 | 第53-55页 |
| ·人名识别测试 | 第53-55页 |
| ·地名识别测试 | 第55页 |
| ·分词速度测试 | 第55-57页 |
| ·资源消耗测试 | 第57-58页 |
| ·本章小结 | 第58-60页 |
| 5 总结与展望 | 第60-62页 |
| 参考文献 | 第62-65页 |
| 附录 | 第65-68页 |
| 致谢 | 第68-69页 |
| 个人简历、在校期间发表的学术论文及研究成果 | 第69页 |