面向机构官网的数据抽取研究

摘要	第4-5页
Abstract	第5-6页
第1章绪论	第9-16页
1.1 课题来源	第9页
1.2 课题背景与研究意义	第9-10页
1.3 国内外研究现状	第10-12页
1.3.1 网页分类	第10-11页
1.3.2 网页信息抽取	第11-12页
1.4 主要研究内容	第12-14页
1.5 论文组织结构	第14-16页
第2章相关理论基础	第16-21页
2.1 网页分类方法	第16-17页
2.1.1 特征选择	第16-17页
2.1.2 分类方法	第17页
2.2 网页信息抽取方法	第17-19页
2.2.1 基于模式的网页信息抽取	第18页
2.2.2 基于领域本体的网页信息抽取	第18-19页
2.2.3 基于机器学习的网页信息抽取	第19页
2.3 评价指标	第19-20页
2.4 本章小结	第20-21页
第3章结合内容与结构特征的网页分类	第21-40页
3.1 数据集构建	第21-24页
3.1.1 大规模数据采集及预处理	第21-22页
3.1.2 数据集构建与分析	第22-24页
3.2 网页特征分析	第24-34页
3.2.1 主体信息区块定位	第25-28页
3.2.2 网页结构特征	第28-30页
3.2.3 网页内容特征	第30-34页
3.3 网页分类模型构建	第34-38页
3.3.1 人工神经网络	第35-36页
3.3.2 决策树	第36-37页
3.3.3 支持向量机	第37-38页
3.4 本章小结	第38-40页
第4章面向类别的网页信息抽取	第40-48页
4.1 信息抽取数据集构建	第40-41页
4.2 基于触发规则的信息抽取	第41-44页
4.2.1 数据分析	第41-42页
4.2.2 信息抽取触发词库构建	第42页
4.2.3 文本词性标注	第42-43页
4.2.4 信息抽取规则库构建	第43页
4.2.5 算法描述	第43-44页
4.3 基于LSTM的信息抽取	第44-47页
4.3.1 数据分析	第44页
4.3.2 文本处理及标注	第44-45页
4.3.3 LSTM模型	第45-46页
4.3.4 抽取算法描述	第46-47页
4.4 本章小结	第47-48页
第5章实验结果分析	第48-56页
5.1 网页分类实验结果	第48-52页
5.1.1 特征提取结果	第48-49页
5.1.2 模型分类结果	第49-50页
5.1.3 模型参数调优	第50-51页
5.1.4 特征选择实验结果	第51-52页
5.2 网页抽取实验结果	第52-55页
5.2.1 基于触发规则的信息抽取实验结果	第52-54页
5.2.2 基于LSTM的信息抽取实验结果	第54-55页
5.3 本章小结	第55-56页
结论	第56-58页
参考文献	第58-61页
攻读学位期间发表的学术论文	第61-63页
致谢	第63-64页