开放式文档同构引擎关键技术研究与实现
| 摘要 | 第1-7页 |
| ABSTRACT | 第7-11页 |
| 第一章 绪论 | 第11-19页 |
| ·开放式文档同构引擎研究背景 | 第11-12页 |
| ·开放式文档同构引擎应用 | 第12-14页 |
| ·文档摘要系统中的应用 | 第12-13页 |
| ·反垃圾邮件系统中的应用 | 第13-14页 |
| ·开放式文档同构引擎概述 | 第14-16页 |
| ·物理结构层 | 第15页 |
| ·逻辑结构层 | 第15页 |
| ·词句法分析层 | 第15-16页 |
| ·概念抽取层 | 第16页 |
| ·主题表示层 | 第16页 |
| ·国内外研究现状 | 第16-17页 |
| ·主要工作和本文组织结构 | 第17-19页 |
| 第二章 物理层结构分析 | 第19-27页 |
| ·字符编码和识别技术简介 | 第20-22页 |
| ·英文字符与汉字字符的识别 | 第21页 |
| ·GB码与BIG5 码的识别 | 第21-22页 |
| ·物理结构层格式定义 | 第22-23页 |
| ·异构文档的接口实现 | 第23-27页 |
| ·HTML文档物理接口实现 | 第23-24页 |
| ·PDF文档物理接口实现 | 第24-27页 |
| 第三章 逻辑结构分析 | 第27-36页 |
| ·文档逻辑结构的定义 | 第27-29页 |
| ·文档逻辑结构的分析过程 | 第29-36页 |
| ·预处理 | 第30-31页 |
| ·除噪 | 第31页 |
| ·特征识别 | 第31-32页 |
| ·小标题识别 | 第32-33页 |
| ·逻辑结构树生成 | 第33-36页 |
| 第四章 词句法分析层之词法分析系统 | 第36-53页 |
| ·分词算法 | 第37-41页 |
| ·基于词典的分词技术 | 第37-40页 |
| ·基于统计的分词技术 | 第40-41页 |
| ·混合型分词技术 | 第41页 |
| ·词性标注 | 第41-43页 |
| ·基于规则的方法 | 第41-42页 |
| ·基于统计的方法 | 第42-43页 |
| ·高效的倒排索引存储结构 | 第43-49页 |
| ·相关定义 | 第45-47页 |
| ·倒排索引管理 | 第47-49页 |
| ·结论 | 第49页 |
| ·新词识别技术 | 第49-53页 |
| ·新词定义 | 第49-50页 |
| ·篇章内串频计算方法 | 第50-51页 |
| ·网络间字串频度统计 | 第51页 |
| ·字结构组合规则 | 第51页 |
| ·加权处理 | 第51页 |
| ·垃圾串处理 | 第51-52页 |
| ·结果及论述 | 第52-53页 |
| 第五章 词句法分析层之句法分析系统 | 第53-74页 |
| ·句法分析研究背景 | 第53-59页 |
| ·乔姆斯基语法体系 | 第55-56页 |
| ·HPSG和LFG | 第56-57页 |
| ·依存语法 | 第57-58页 |
| ·链语法 | 第58-59页 |
| ·句法分析系统关键技术 | 第59-71页 |
| ·CHART算法 | 第61-65页 |
| ·PCFG消歧 | 第65-70页 |
| ·平滑技术 | 第70-71页 |
| ·句法分析系统测评 | 第71-74页 |
| ·PARSEVAL评测 | 第71-72页 |
| ·树形相似评价标准 | 第72-74页 |
| 第六章 概念抽取及主题表示层技术分析 | 第74-86页 |
| ·概念抽取层关键技术 | 第74-81页 |
| ·预处理 | 第75-77页 |
| ·形成高频串 | 第77-79页 |
| ·后处理 | 第79-81页 |
| ·主题表示层关键技术 | 第81-84页 |
| ·向量空间模型 | 第81-82页 |
| ·降维 | 第82-83页 |
| ·权值计算 | 第83-84页 |
| ·实验结果 | 第84-86页 |
| 第七章 总结和展望 | 第86-88页 |
| 参考文献 | 第88-91页 |
| 致谢 | 第91-92页 |
| 攻读硕士学位期间已发表或录用的论文 | 第92-93页 |
| 攻读硕士学位期间参加的科研项目 | 第93页 |