面向Web站点的标签标识相关技术的研究与应用

摘要	第4-6页
ABSTRACT	第6-7页
第一章绪论	第10-14页
1.1 研究背景和意义	第10-11页
1.2 网站标签标识的研究现状	第11-12页
1.3 研究内容	第12-13页
1.4 本文结构	第13-14页
第二章网站多标识相关技术	第14-28页
2.1 网络爬虫	第14-16页
2.1.1 网络爬虫原理	第14-15页
2.1.2 爬虫分类	第15-16页
2.2 网页去噪	第16页
2.3 Web信息抽取	第16-18页
2.3.1 信息抽取概述	第16-17页
2.3.2 信息抽取方法	第17-18页
2.4 文本分类技术	第18-22页
2.4.1 文本分类概述	第18-19页
2.4.2 文档表示模型	第19-20页
2.4.3 特征选择技术	第20页
2.4.4 文本分类技术	第20-22页
2.5 多标签算法	第22-25页
2.6 网站多标识系统的评价指标	第25-28页
第三章网站信息分析与挖掘	第28-42页
3.1 网页粒度分析	第28-29页
3.2 网站版块结构挖掘	第29-33页
3.2.1 站点结构	第29-30页
3.2.2 URL特征	第30-31页
3.2.3 拓扑结构与URL特征相结合的网站结构提取方法	第31-33页
3.3 网页正文内容挖掘	第33-40页
3.3.1 网页标题提取	第34-35页
3.3.2 网页正文提取	第35-40页
3.4 网站信息挖掘的基本流程	第40-41页
3.4.1 挖掘流程	第40-41页
3.4.2 实验结果分析	第41页
3.5 本章小结	第41-42页
第四章网站多标签	第42-53页
4.1 多标签分类常用数据集	第42-43页
4.2 网站多标签算法	第43-44页
4.3 属性加权ML-KNN算法S-ML-KNN	第44-48页
4.3.1 网站结构特征提取	第44-47页
4.3.2 属性加权的S-ML-KNN改进算法	第47-48页
4.4 网站标识的基本流程	第48-50页
4.5 实验结果及分析	第50-51页
4.6 本章小结	第51-53页
第五章网站标签标识系统的设计与实现	第53-59页
5.1 系统设计目标	第53页
5.2 系统架构	第53-58页
5.2.1 网站拓扑结构回溯模块	第54-55页
5.2.2 网页预处理模块	第55-56页
5.2.3 网站结构信息提取模块	第56页
5.2.4 网页正文抽取模块	第56-57页
5.2.5 网站多标签模块	第57-58页
5.3 系统性能分析	第58-59页
第六章总结与展望	第59-61页
6.1 总结	第59-60页
6.2 展望	第60-61页
参考文献	第61-65页
致谢	第65-66页
攻读硕士学位期间主要研究成果	第66页