首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于DOM树的网页相似度研究与应用

摘要第1-5页
Abstract第5-9页
1 绪论第9-15页
   ·选题背景与研究意义第9-10页
   ·研究现状第10-13页
     ·基于编辑距离的网页相似度度量方法第11-12页
     ·基于链路统计特征的网页相似度度量方法第12页
     ·基于结点统计特征的网页相似度度量方法第12-13页
   ·论文研究的内容、意义与技术路线第13-15页
2 网页DOM树解析第15-29页
   ·网页DOM树相关概念第15-18页
     ·HTML第15-16页
     ·XML第16-17页
     ·DOM树第17-18页
   ·网页DOM树解析遇到的问题第18-19页
   ·HTML信息预处理第19-22页
     ·补全标记第19-20页
     ·提取标记属性第20页
     ·提取脚本和注释信息第20页
     ·标记配对第20-22页
     ·添加标记对第22页
   ·正序解析算法第22-25页
     ·预提取数据第22-23页
     ·标记配对第23-24页
     ·构造树第24-25页
   ·逆序解析算法第25-27页
     ·标记的识别第25-26页
     ·待配对结束标记栈第26页
     ·配对与构造树节点第26-27页
   ·实验第27-28页
   ·本章小结第28-29页
3 基于DOM树的网页结构相似度第29-43页
   ·基于子树最优自由匹配的结构相似度度量模型第29-35页
     ·相似度的定义第29-30页
     ·子树最优自由匹配规则第30页
     ·计算步骤第30-32页
     ·相似度计算结果比较第32-33页
     ·完全相似情况下的计算时间比较第33-34页
     ·模型扩展—网页的语义相似性第34-35页
   ·基于链路压缩树的网页相似度度量模型第35-42页
     ·链路之间的相似度度量第35-36页
     ·网页DOM树之间的相似度度量第36页
     ·链路压缩树第36-38页
     ·链路压缩树的相似度度量第38-39页
     ·链路压缩树的构造第39-40页
     ·相似度计算结果统计第40-41页
     ·完全相似情况下的计算时间比较第41-42页
   ·本章小结第42-43页
4 基于DOM树结构相似性的正文信息提取第43-48页
   ·相关研究第43-44页
   ·基于DOM树结构相似性的正文信息提取第44-45页
     ·正文信息在网页中的分布特征第44页
     ·树结构的相似性度量第44页
     ·正文信息提取第44-45页
   ·实验与分析第45-47页
   ·本章小结第47-48页
结论第48-49页
参考文献第49-52页
攻读硕士学位期间发表学术论文情况第52-53页
致谢第53-54页

论文共54页,点击 下载论文
上一篇:大载荷六维力传感器及其标定技术研究
下一篇:一种冗余规则删减方法及其应用