网站内容多标签标识关键技术研究

摘要	第4-5页
ABSTRACT	第5-6页
第一章绪论	第10-15页
1.1 研究背景和意义	第10-11页
1.2 国内外研究现状	第11-13页
1.3 本文的研究内容	第13页
1.4 本文结构	第13-15页
第二章网站内容多标签标识相关技术	第15-26页
2.1 网站资源获取	第15-16页
2.1.1 下载页面资源	第15-16页
2.1.2 页面资源预处理	第16页
2.1.3 关键信息处理	第16页
2.2 信息的展示方式	第16-18页
2.2.1 空间向量表示法	第17-18页
2.2.2 表、图、树表示法	第18页
2.3 文本分类技术	第18-22页
2.3.1 单标签分类	第18-20页
2.3.2 多标签分类	第20-22页
2.4 标签标识的评价指标	第22-24页
2.4.1 文本分类的衡量指标	第22-24页
2.4.2 网站内容多标签标识系统中其他特有的评价指标	第24页
2.5 网站内容多标签标识的关键技术	第24-25页
2.6 本章总结	第25-26页
第三章网站信息层次提取	第26-39页
3.1 相关研究现状	第26-27页
3.2 网络资源抓取	第27-28页
3.2.1 爬虫系统	第27页
3.2.2 资源抓取规则	第27-28页
3.3 正文提取	第28-30页
3.4 页面相异度	第30-32页
3.4.1 URL相异度	第30-31页
3.4.2 正文相异度	第31-32页
3.4.3 页面相异度	第32页
3.5 构建四元组集	第32-34页
3.6 实验设置	第34-35页
3.7 实验结果	第35-37页
3.7.1 采用本文算法的实验结果	第35-36页
3.7.2 采用基于站点链接结构的站点主题层次结构抽取算法的结果	第36-37页
3.8 本章小结	第37-39页
第四章标签库的构建	第39-51页
4.1 相关研究现状	第39-43页
4.1.1 文献分类法	第40-42页
4.1.2 标签分类法	第42-43页
4.2 复合式等级结构	第43-49页
4.2.1 标签库的结构	第44-45页
4.2.2 主题子标签库	第45-48页
4.2.3 其他子标签库	第48-49页
4.3 多标签标识算法	第49-50页
4.3.1 主题子库的一、二级标签标识	第49-50页
4.3.2 主题子库的三级标签标识	第50页
4.4 本章小结	第50-51页
第五章多标签标识的实验设计与结果分析	第51-57页
5.1 系统设计目标	第51页
5.2 实验设计	第51-52页
5.2.1 数据来源	第51页
5.2.2 实验数据的获取	第51-52页
5.2.3 试验评价标准	第52页
5.3 实验过程	第52-54页
5.3.1 数据爬取	第53页
5.3.2 信息层次结构提取	第53页
5.3.3 多标签标识	第53-54页
5.4 实验结果	第54页
5.5 实验结果分析	第54-57页
第六章总结及展望	第57-59页
6.1 论文工作总结	第57页
6.2 后续研究工作	第57-59页
参考文献	第59-62页
致谢	第62-63页
攻读学位期间发表的学术论文目录	第63页