基于Web的汉越可比较语料库构建方法研究

授予学历硕士人员登记表	第2-5页
摘要	第5-7页
Abstract	第7-8页
第一章绪论	第12-18页
1.1. 研究背景及意义	第12页
1.2. 国内外研究现状	第12-14页
1.3. 本文的主要研究内容	第14-15页
1.4. 本文的组织结构	第15-18页
第二章可比较语料库挖掘系统的设计与框架	第18-24页
2.1. 相关研究	第18-20页
2.1.1. 基于特征匹配	第18-19页
2.1.2. 基于跨语言信息检索	第19-20页
2.1.3. 基于维基百科链接	第20页
2.2. 可比较语料挖掘系统设计与框架	第20-23页
2.3. 本章小结	第23-24页
第三章基于文本密度块的WEB新闻抽取方法	第24-34页
3.1. 引言	第24-25页
3.2. 相关研究	第25-28页
3.2.1. 基于统计的方法	第25页
3.2.2 基于DOM的方法	第25-26页
3.2.3 基于网页分块的方法	第26-27页
3.2.4 基于标签窗的方法	第27-28页
3.3. 新闻网页抽取方案设计	第28页
3.4. 基于文本密度块的WEB新闻抽取方法	第28-31页
3.4.1. 数据预处理	第28-30页
3.4.2. 新闻信息抽取	第30-31页
3.5. 实验与分析	第31-32页
3.5.1. 语料	第31-32页
3.5.2. 评价指标	第32页
3.5.3. 实验设计与结果分析	第32页
3.6. 本章小结	第32-34页
第四章基于TextRank算法提取新闻关键事件主题句	第34-42页
4.1. 引言	第34页
4.2. 事件抽取的研究方法	第34-36页
4.2.1. 基于机器学习的事件抽取	第35页
4.2.2. 基于模板匹配的规则方法	第35-36页
4.3. 关键事件主题句提取	第36-39页
4.3.1. 基本流程	第36-37页
4.3.2. 事件识别	第37-38页
4.3.3. TextRank权值计算	第38-39页
4.4. 实验与分析	第39-40页
4.4.1. 实验数据	第39页
4.4.2. 评价标准	第39页
4.4.3. 实验结果与分析	第39-40页
4.5. 本章小结	第40-42页
第五章基于向量空间的跨语言新闻文本相似度计算	第42-52页
5.1. 引言	第42页
5.2. 相关工作介绍	第42-43页
5.3. 跨语言文本匹配	第43-46页
5.3.1. 基本流程	第43-44页
5.3.2. 双语向量空间的构建	第44-45页
5.3.3. 时间相似度计算	第45-46页
5.3.4. 相似度计算	第46页
5.4. 实验与分析	第46-50页
5.4.1. 测试样本	第46-48页
5.4.2. 评价标准	第48-49页
5.4.3. 实验结果与分析	第49-50页
5.5. 本章小结	第50-52页
第六章总结及展望	第52-54页
6.1. 总结	第52-53页
6.2. 展望	第53-54页
致谢	第54-56页
参考文献	第56-64页
附录A 攻读硕士期间发表论文与申请软件著作权	第64-65页
附录B 攻读硕士期间参与项目	第65页