一种基于半监督学习的实体集合扩展方法研究

摘要	第5-7页
Abstract	第7-8页
目录	第9-11页
第1章绪论	第11-16页
1.1 研究背景、现状与意义	第11-13页
1.1.1 研究背景	第11页
1.1.2 研究现状	第11-13页
1.1.3 研究意义	第13页
1.2 本文工作	第13-15页
1.3 本文结构	第15-16页
第2章相关工作	第16-26页
2.1 实体集合扩展技术的研究现状	第16-17页
2.1.1 基于分布统计的实体集合扩展方法	第16-17页
2.1.2 基于语义信息的实体集合扩展方法	第17页
2.2 包装器(Wrapper)研究现状	第17-19页
2.3 主题识别的研究现状	第19-22页
2.3.1 LDA模型	第19-21页
2.3.2 Gibbs抽样	第21-22页
2.4 器学习领域的相关研究	第22-26页
第3章基于半监督学习的实体集合扩展方法	第26-44页
3.1 问题描述	第26页
3.2 算法整体流程	第26-28页
3.3 文档数据的获取与清洗	第28-36页
3.3.1 网络爬虫的基本原理	第28-29页
3.3.2 数据清洗	第29-36页
3.4 候选词的抽取与过滤	第36-37页
3.5 词列表的构建	第37-39页
3.6 利用LDA提取词列表语义信息	第39-40页
3.7 标签传播	第40-44页
3.7.1 标签传播算法的基本原理	第40-41页
3.7.2 标签传播算法的具体应用	第41-44页
第4章实验数据及结果评估	第44-49页
4.1 网页正文内容抽取方法评估	第44-45页
4.2 基准实验及评价方法	第45页
4.3 结果分析与评估	第45-49页
第5章总结及展望	第49-51页
5.1 本文总结	第49页
5.2 未来的工作	第49-51页
参考文献	第51-56页
致谢	第56-57页
攻读硕士学位期间发表的论文	第57页