基于正文结构和长句提取的网页去重研究

中文摘要	第1-4页
英文摘要	第4-8页
1 引言	第8-19页
·问题的提出及研究意义	第8-9页
·问题的提出	第8-9页
·研究的意义	第9页
·起源与分类	第9-11页
·网页去重算法起源	第9-10页
·网页去重算法分类	第10-11页
·国内外研究现状	第11-15页
·基于聚类的网页去重算法	第11-12页
·基于特征码的网页去重算法	第12-14页
·基于签名的网页去重算法	第14-15页
·论文主要工作及结论	第15-17页
·论文结构	第17-19页
2 重复网页	第19-26页
·网络爬虫抓取的普通网页	第19-20页
·重复网页定义	第20-23页
·镜像网页的定义	第21-22页
·近似镜像网页的定义	第22-23页
·重复网页特征	第23页
·重复网页净化	第23-26页
3 正文结构树	第26-35页
·网页要素抽取流程	第26-27页
·网页的表示	第27-29页
·网页要素抽取	第29-32页
·正文结构树生成	第32-35页
·正文结构树生成流程	第32页
·段落信息的表示	第32-33页
·正文结构表示形式的获取	第33页
·权值赋值算法	第33-34页
·建树算法	第34-35页
4 基于正文结构和长句提取的网页去重系统	第35-52页
·实验网页说明	第35-38页
·实验网页格式类型说明	第35-37页
·实验网页内容类型说明	第37-38页
·网页去重系统流程	第38-39页
·原始数据收集	第39-43页
·URL 类	第40-42页
·Page 类	第42页
·与服务器建立连接	第42-43页
·网页要素抽取	第43-46页
·正文结构树的生成	第46-49页
·网页指纹获取	第49-50页
·长句提取算法	第49页
·签名算法	第49-50页
·层次指纹的相似度计算算法	第50-52页
5 实验结果与分析	第52-58页
·实验评估方法	第52页
·实验结果	第52-57页
·实验一	第52-54页
·实验二	第54-57页
·实验分析	第57-58页
6 总结与展望	第58-59页
致谢	第59-60页
参考文献	第60-63页
附录	第63页
作者在攻读学位期间发表的论文目录	第63页