摘要 | 第5-7页 |
ABSTRACT | 第7-9页 |
第一章 绪论 | 第13-23页 |
1.1 引言 | 第13-15页 |
1.2 研究背景 | 第15-16页 |
1.3 研究问题 | 第16-19页 |
1.4 研究内容及主要结构 | 第19-21页 |
1.5 研究意义 | 第21页 |
1.6 主要创新点 | 第21-23页 |
第二章 相关理论及文献综述 | 第23-33页 |
2.1 文本挖掘技术综述 | 第23-24页 |
2.2 分词技术和复合新词发现研究综述 | 第24-26页 |
2.2.1 分词技术研究综述 | 第24-25页 |
2.2.2 复合新词发现研究综述 | 第25-26页 |
2.3 文本特征抽取研究综述 | 第26-29页 |
2.3.1 文本表示 | 第26-27页 |
2.3.2 文本特征抽取研究综述 | 第27-29页 |
2.4 话题识别研究综述 | 第29-30页 |
2.5 信息可视化研究综述 | 第30-32页 |
2.6 本章小结 | 第32-33页 |
第三章 基于词单元依赖关系的复合新词发现 | 第33-50页 |
3.1 引言 | 第33-34页 |
3.2 基于词单元依赖关系的复合新词发现 | 第34-41页 |
3.2.1 文本内容抽取及数据预处理 | 第35-36页 |
3.2.2 序列频繁模式挖掘 | 第36-38页 |
3.2.3 复合新词发现 | 第38-41页 |
3.3 实验结果与分析 | 第41-49页 |
3.3.1 示例实验结果 | 第41-45页 |
3.3.2 不同数据集上算法比较实验 | 第45-49页 |
3.4 本章小结 | 第49-50页 |
第四章 域内文本话题界限划分及其特征词抽取 | 第50-72页 |
4.1 引言 | 第50-51页 |
4.2 研究方法 | 第51-53页 |
4.2.1 问题定义 | 第51-52页 |
4.2.2 研究框架 | 第52-53页 |
4.3 文档内容预处理 | 第53页 |
4.4 热点话题词挖掘 | 第53-55页 |
4.4.1 域内专用词抽取 | 第54-55页 |
4.4.2 域内热点话题词挖掘 | 第55页 |
4.5 热点话题词的局部特征词抽取 | 第55-59页 |
4.5.1 基于热点话题词的向量切分 | 第55-57页 |
4.5.2 频繁共现词之间的依赖关系 | 第57页 |
4.5.3 局部特征词抽取算法 | 第57-59页 |
4.6 实验结果 | 第59-70页 |
4.6.1 示例实验结果 | 第59-63页 |
4.6.2 不同领域对比实验结果 | 第63-66页 |
4.6.3 抽取特征的语义比较 | 第66-67页 |
4.6.4 算法可扩展性实验结果 | 第67-70页 |
4.7 本章小结 | 第70-72页 |
第五章 UGC文本中多话题关系抽取及应用研究--以旅游博客信息抽取为例 | 第72-110页 |
5.1 引言 | 第72-75页 |
5.1.1 旅游业发展背景介绍 | 第73-75页 |
5.2 旅游UGC信息抽取文献回顾 | 第75-77页 |
5.3 多旅游景点话题关系网络的构建方法 | 第77-78页 |
5.4 旅游信息抽取与管理系统框架 | 第78-79页 |
5.5 旅游博客文本预处理工作 | 第79-82页 |
5.5.1 旅游博客文本数据抓取及分词 | 第79-80页 |
5.5.2 复合新词发现及数据清洗 | 第80-82页 |
5.6 热门旅游景点及其TOI抽取 | 第82-87页 |
5.6.1 热门旅游景点发现 | 第82-84页 |
5.6.2 热门旅游景点TOI抽取 | 第84-87页 |
5.7 热门旅游景点区域化 | 第87-94页 |
5.7.1 多旅游景点话题关系网络的构建 | 第87-88页 |
5.7.2 热门旅游景点词区域化 | 第88-94页 |
5.8 旅游路径发现及推荐 | 第94-108页 |
5.8.1 旅游路径发现子系统框架 | 第95-96页 |
5.8.2 旅游博客文本预处理工作 | 第96-97页 |
5.8.3 热门旅游景点轨迹数据集构建 | 第97-99页 |
5.8.4 路径得分 | 第99-104页 |
5.8.5 旅游线路推荐 | 第104-108页 |
5.9 本章小结 | 第108-110页 |
第六章 全文总结与展望 | 第110-115页 |
6.1 全文总结 | 第110-112页 |
6.2 管理启示 | 第112-113页 |
6.3 展望 | 第113-115页 |
致谢 | 第115-116页 |
参考文献 | 第116-129页 |
攻读博士学位期间取得的研究成果 | 第129-130页 |