基于DOM树的网页相似度研究与应用

摘要	第1-5页
Abstract	第5-9页
1 绪论	第9-15页
·选题背景与研究意义	第9-10页
·研究现状	第10-13页
·基于编辑距离的网页相似度度量方法	第11-12页
·基于链路统计特征的网页相似度度量方法	第12页
·基于结点统计特征的网页相似度度量方法	第12-13页
·论文研究的内容、意义与技术路线	第13-15页
2 网页DOM树解析	第15-29页
·网页DOM树相关概念	第15-18页
·HTML	第15-16页
·XML	第16-17页
·DOM树	第17-18页
·网页DOM树解析遇到的问题	第18-19页
·HTML信息预处理	第19-22页
·补全标记	第19-20页
·提取标记属性	第20页
·提取脚本和注释信息	第20页
·标记配对	第20-22页
·添加标记对	第22页
·正序解析算法	第22-25页
·预提取数据	第22-23页
·标记配对	第23-24页
·构造树	第24-25页
·逆序解析算法	第25-27页
·标记的识别	第25-26页
·待配对结束标记栈	第26页
·配对与构造树节点	第26-27页
·实验	第27-28页
·本章小结	第28-29页
3 基于DOM树的网页结构相似度	第29-43页
·基于子树最优自由匹配的结构相似度度量模型	第29-35页
·相似度的定义	第29-30页
·子树最优自由匹配规则	第30页
·计算步骤	第30-32页
·相似度计算结果比较	第32-33页
·完全相似情况下的计算时间比较	第33-34页
·模型扩展—网页的语义相似性	第34-35页
·基于链路压缩树的网页相似度度量模型	第35-42页
·链路之间的相似度度量	第35-36页
·网页DOM树之间的相似度度量	第36页
·链路压缩树	第36-38页
·链路压缩树的相似度度量	第38-39页
·链路压缩树的构造	第39-40页
·相似度计算结果统计	第40-41页
·完全相似情况下的计算时间比较	第41-42页
·本章小结	第42-43页
4 基于DOM树结构相似性的正文信息提取	第43-48页
·相关研究	第43-44页
·基于DOM树结构相似性的正文信息提取	第44-45页
·正文信息在网页中的分布特征	第44页
·树结构的相似性度量	第44页
·正文信息提取	第44-45页
·实验与分析	第45-47页
·本章小结	第47-48页
结论	第48-49页
参考文献	第49-52页
攻读硕士学位期间发表学术论文情况	第52-53页
致谢	第53-54页