摘要 | 第1-7页 |
ABSTRACT | 第7-9页 |
目录 | 第9-12页 |
第一章 绪论 | 第12-30页 |
·研究背景和意义 | 第12-18页 |
·语料库 | 第12-13页 |
·双语语料库 | 第13-15页 |
·双语语料库挖掘意义 | 第15-18页 |
·国内外研究现状 | 第18-25页 |
·Web平行语料挖掘现状 | 第18-21页 |
·Web可比语料挖掘现状 | 第21-24页 |
·语料质量评价 | 第24-25页 |
·主要研究内容 | 第25-26页 |
·论文基本结构 | 第26-30页 |
第二章 网络平行语料挖掘系统设计与实现 | 第30-42页 |
·网络平行语料挖掘整体框架 | 第30-31页 |
·网络平行语料挖掘 | 第31-37页 |
·候选资源获取与预处理 | 第31-32页 |
·平行网页识别 | 第32-37页 |
·双语句对齐 | 第37页 |
·实验结果与分析 | 第37-40页 |
·测试样本和评价标准 | 第37-38页 |
·结果与分析 | 第38-40页 |
·本章小结 | 第40-42页 |
第三章 网络可比语料挖掘系统设计与框架 | 第42-52页 |
·相关模型概述 | 第42-47页 |
·标准LDA模型 | 第42-45页 |
·Bi-LDA模型 | 第45-47页 |
·网络可比语料挖掘整体框架设计 | 第47-49页 |
·网络可比语料挖掘关键技术分析 | 第49-50页 |
·本章小结 | 第50-52页 |
第四章 基于文本密度模型的Web正文抽取 | 第52-64页 |
·相关工作 | 第52-53页 |
·正文抽取系统 | 第53-59页 |
·文本密度计算 | 第54-57页 |
·平滑文本密度 | 第57-58页 |
·正文内容分割 | 第58-59页 |
·实验与分析 | 第59-62页 |
·测试样本与评价标准 | 第59-60页 |
·结果与分析 | 第60-62页 |
·本章小结 | 第62-64页 |
第五章 基于LDA模型的文本关键词提取 | 第64-78页 |
·相关工作 | 第65-66页 |
·关键词提取 | 第66-71页 |
·基本流程 | 第66-68页 |
·TFITF权值计算 | 第68-69页 |
·候选关键词合并 | 第69-70页 |
·冗余短语消除 | 第70-71页 |
·实验与分析 | 第71-76页 |
·测试样本和评价标准 | 第71-72页 |
·结果与分析 | 第72-76页 |
·本章小结 | 第76-78页 |
第六章 基于Bi-LDA模型的跨语言文本相似度计算 | 第78-90页 |
·相关研究 | 第78-79页 |
·跨语言文本匹配 | 第79-84页 |
·基本流程 | 第79-81页 |
·KL散度 | 第81页 |
·余弦相似度 | 第81-82页 |
·条件概率 | 第82-84页 |
·实验结果与分析 | 第84-87页 |
·测试样本与评价标准 | 第84-85页 |
·实验结果与分析 | 第85-87页 |
·本章小结 | 第87-90页 |
第七章 总结和展望 | 第90-94页 |
·论文的主要贡献 | 第90-91页 |
·工作展望 | 第91-94页 |
参考文献 | 第94-106页 |
致谢 | 第106-108页 |
在读期间发表的学术论文与取得的其他研究成果 | 第108-109页 |