开放式文档同构引擎关键技术研究与实现
摘要 | 第1-7页 |
ABSTRACT | 第7-11页 |
第一章 绪论 | 第11-19页 |
·开放式文档同构引擎研究背景 | 第11-12页 |
·开放式文档同构引擎应用 | 第12-14页 |
·文档摘要系统中的应用 | 第12-13页 |
·反垃圾邮件系统中的应用 | 第13-14页 |
·开放式文档同构引擎概述 | 第14-16页 |
·物理结构层 | 第15页 |
·逻辑结构层 | 第15页 |
·词句法分析层 | 第15-16页 |
·概念抽取层 | 第16页 |
·主题表示层 | 第16页 |
·国内外研究现状 | 第16-17页 |
·主要工作和本文组织结构 | 第17-19页 |
第二章 物理层结构分析 | 第19-27页 |
·字符编码和识别技术简介 | 第20-22页 |
·英文字符与汉字字符的识别 | 第21页 |
·GB码与BIG5 码的识别 | 第21-22页 |
·物理结构层格式定义 | 第22-23页 |
·异构文档的接口实现 | 第23-27页 |
·HTML文档物理接口实现 | 第23-24页 |
·PDF文档物理接口实现 | 第24-27页 |
第三章 逻辑结构分析 | 第27-36页 |
·文档逻辑结构的定义 | 第27-29页 |
·文档逻辑结构的分析过程 | 第29-36页 |
·预处理 | 第30-31页 |
·除噪 | 第31页 |
·特征识别 | 第31-32页 |
·小标题识别 | 第32-33页 |
·逻辑结构树生成 | 第33-36页 |
第四章 词句法分析层之词法分析系统 | 第36-53页 |
·分词算法 | 第37-41页 |
·基于词典的分词技术 | 第37-40页 |
·基于统计的分词技术 | 第40-41页 |
·混合型分词技术 | 第41页 |
·词性标注 | 第41-43页 |
·基于规则的方法 | 第41-42页 |
·基于统计的方法 | 第42-43页 |
·高效的倒排索引存储结构 | 第43-49页 |
·相关定义 | 第45-47页 |
·倒排索引管理 | 第47-49页 |
·结论 | 第49页 |
·新词识别技术 | 第49-53页 |
·新词定义 | 第49-50页 |
·篇章内串频计算方法 | 第50-51页 |
·网络间字串频度统计 | 第51页 |
·字结构组合规则 | 第51页 |
·加权处理 | 第51页 |
·垃圾串处理 | 第51-52页 |
·结果及论述 | 第52-53页 |
第五章 词句法分析层之句法分析系统 | 第53-74页 |
·句法分析研究背景 | 第53-59页 |
·乔姆斯基语法体系 | 第55-56页 |
·HPSG和LFG | 第56-57页 |
·依存语法 | 第57-58页 |
·链语法 | 第58-59页 |
·句法分析系统关键技术 | 第59-71页 |
·CHART算法 | 第61-65页 |
·PCFG消歧 | 第65-70页 |
·平滑技术 | 第70-71页 |
·句法分析系统测评 | 第71-74页 |
·PARSEVAL评测 | 第71-72页 |
·树形相似评价标准 | 第72-74页 |
第六章 概念抽取及主题表示层技术分析 | 第74-86页 |
·概念抽取层关键技术 | 第74-81页 |
·预处理 | 第75-77页 |
·形成高频串 | 第77-79页 |
·后处理 | 第79-81页 |
·主题表示层关键技术 | 第81-84页 |
·向量空间模型 | 第81-82页 |
·降维 | 第82-83页 |
·权值计算 | 第83-84页 |
·实验结果 | 第84-86页 |
第七章 总结和展望 | 第86-88页 |
参考文献 | 第88-91页 |
致谢 | 第91-92页 |
攻读硕士学位期间已发表或录用的论文 | 第92-93页 |
攻读硕士学位期间参加的科研项目 | 第93页 |