基于网络影评文本的关系图谱系统的设计与实现

摘要	第4-6页
ABSTRACT	第6-7页
第一章绪论	第10-13页
1.1 研究背景和研究意义	第10-11页
1.2 本文的主要工作	第11页
1.3 本文组织结构以及章节安排	第11-13页
第二章相关技术研究	第13-23页
2.1 关系图谱概述	第13-14页
2.2 基于文本的关系抽取	第14-15页
2.3 文本相似度计算	第15-16页
2.4 数据爬取技术研究	第16-18页
2.5 文本分词技术	第18页
2.6 文本向量技术研究	第18-22页
2.6.1 词袋模型	第18-19页
2.6.2 基于LDA主题模型的文本向量	第19-20页
2.6.3 词向量技术研究	第20-21页
2.6.4 神经语言模型获取distributed representations词向量	第21-22页
2.6.5 段落向量技术研究	第22页
2.7 本章小结	第22-23页
第三章关系图谱系统的设计与实现	第23-42页
3.1 数据源调研与分析	第23-25页
3.2 数据爬取设计与实现	第25-30页
3.2.1 数据爬取概述	第25-26页
3.2.2 电影种子URL抓取	第26-27页
3.2.3 影评信息抓取	第27-28页
3.2.4 高效应对目标网站的反爬虫策略	第28-29页
3.2.5 数据更新	第29-30页
3.3 数据预处理	第30-33页
3.3.1 文本分词构建词汇表	第30-32页
3.3.2 构建词汇表哈夫曼树	第32-33页
3.4 词向量计算的设计与实现	第33-36页
3.4.1 word2vec模型和训练方法	第33-35页
3.4.2 基于word2vec模型的词向量融合	第35-36页
3.4.3 词向量计算的相关参数和边界问题	第36页
3.5 段落向量计算的设计与实现	第36-40页
3.5.1 词向量叠加生成段落向量	第38页
3.5.2 句向量的分布记忆模型生成段落向量以及改进	第38-40页
3.6 文本关联计算设计与实现	第40-41页
3.7 本章小结	第41-42页
第四章实验分析	第42-53页
4.1 实验环境	第42-44页
4.1.1 实验系统环境	第42-43页
4.1.2 实验软件环境	第43-44页
4.2 数据爬取分析	第44-45页
4.3 词向量计算分析	第45-46页
4.4 段落向量计算计算分析	第46-47页
4.5 关系图谱计算分析	第47-52页
4.5.1 标记数据集的获取	第47-48页
4.5.2 不同模型的统计数据比对	第48-50页
4.5.3 关系图谱结果展示	第50-52页
4.6 本章小结	第52-53页
第五章总结与展望	第53-55页
5.1 本文工作总结	第53-54页
5.2 未来研究工作展望	第54-55页
参考文献	第55-57页
致谢	第57-58页
作者攻读学位期间发表的学术论文和科研情况	第58页