| 摘要 | 第1-7页 |
| ABSTRACT | 第7-9页 |
| 目录 | 第9-12页 |
| 第一章 绪论 | 第12-30页 |
| ·研究背景和意义 | 第12-18页 |
| ·语料库 | 第12-13页 |
| ·双语语料库 | 第13-15页 |
| ·双语语料库挖掘意义 | 第15-18页 |
| ·国内外研究现状 | 第18-25页 |
| ·Web平行语料挖掘现状 | 第18-21页 |
| ·Web可比语料挖掘现状 | 第21-24页 |
| ·语料质量评价 | 第24-25页 |
| ·主要研究内容 | 第25-26页 |
| ·论文基本结构 | 第26-30页 |
| 第二章 网络平行语料挖掘系统设计与实现 | 第30-42页 |
| ·网络平行语料挖掘整体框架 | 第30-31页 |
| ·网络平行语料挖掘 | 第31-37页 |
| ·候选资源获取与预处理 | 第31-32页 |
| ·平行网页识别 | 第32-37页 |
| ·双语句对齐 | 第37页 |
| ·实验结果与分析 | 第37-40页 |
| ·测试样本和评价标准 | 第37-38页 |
| ·结果与分析 | 第38-40页 |
| ·本章小结 | 第40-42页 |
| 第三章 网络可比语料挖掘系统设计与框架 | 第42-52页 |
| ·相关模型概述 | 第42-47页 |
| ·标准LDA模型 | 第42-45页 |
| ·Bi-LDA模型 | 第45-47页 |
| ·网络可比语料挖掘整体框架设计 | 第47-49页 |
| ·网络可比语料挖掘关键技术分析 | 第49-50页 |
| ·本章小结 | 第50-52页 |
| 第四章 基于文本密度模型的Web正文抽取 | 第52-64页 |
| ·相关工作 | 第52-53页 |
| ·正文抽取系统 | 第53-59页 |
| ·文本密度计算 | 第54-57页 |
| ·平滑文本密度 | 第57-58页 |
| ·正文内容分割 | 第58-59页 |
| ·实验与分析 | 第59-62页 |
| ·测试样本与评价标准 | 第59-60页 |
| ·结果与分析 | 第60-62页 |
| ·本章小结 | 第62-64页 |
| 第五章 基于LDA模型的文本关键词提取 | 第64-78页 |
| ·相关工作 | 第65-66页 |
| ·关键词提取 | 第66-71页 |
| ·基本流程 | 第66-68页 |
| ·TFITF权值计算 | 第68-69页 |
| ·候选关键词合并 | 第69-70页 |
| ·冗余短语消除 | 第70-71页 |
| ·实验与分析 | 第71-76页 |
| ·测试样本和评价标准 | 第71-72页 |
| ·结果与分析 | 第72-76页 |
| ·本章小结 | 第76-78页 |
| 第六章 基于Bi-LDA模型的跨语言文本相似度计算 | 第78-90页 |
| ·相关研究 | 第78-79页 |
| ·跨语言文本匹配 | 第79-84页 |
| ·基本流程 | 第79-81页 |
| ·KL散度 | 第81页 |
| ·余弦相似度 | 第81-82页 |
| ·条件概率 | 第82-84页 |
| ·实验结果与分析 | 第84-87页 |
| ·测试样本与评价标准 | 第84-85页 |
| ·实验结果与分析 | 第85-87页 |
| ·本章小结 | 第87-90页 |
| 第七章 总结和展望 | 第90-94页 |
| ·论文的主要贡献 | 第90-91页 |
| ·工作展望 | 第91-94页 |
| 参考文献 | 第94-106页 |
| 致谢 | 第106-108页 |
| 在读期间发表的学术论文与取得的其他研究成果 | 第108-109页 |