基于DOM节点文本密度的网页核心块抽取算法研究

摘要	第1-6页
Abstract	第6-9页
第1章绪论	第9-14页
·研究背景	第9-11页
·研究现状	第11-12页
·本文工作	第12-13页
·论文组织结构	第13-14页
第2章网页核心内容抽取	第14-23页
·网页核心内容抽取算法介绍	第14-20页
·基于机器学习	第14-15页
·基于视觉信息	第15-17页
·模板检测	第17-18页
·基于统计规律	第18-20页
·其他方法	第20页
·网页核心内容抽取应用	第20-23页
·Web as Corpus	第20-21页
·在小屏幕设备上的应用	第21页
·其他应用	第21-23页
第3章 Text Density	第23-32页
·DOM	第24-25页
·Elementary Text Density	第25-28页
·Composite Text Density	第28-29页
·关于Text Density 的一般性定义的思考	第29-32页
·Text Density 的定义	第29-30页
·Text Density 的另一种变形	第30-32页
第4章抽取算法	第32-37页
·阈值	第32-33页
·DensitySum	第33-37页
第5章实验	第37-49页
·算法实现	第37-39页
·HTML 代码清理	第37-38页
·HTML 代码解析	第38-39页
·算法实现细节	第39页
·测试数据集	第39-40页
·评价标准	第40-41页
·标准指标	第40页
·Score	第40-41页
·对比算法	第41页
·实验结果	第41-44页
·算法结果比较	第44-47页
·结果讨论	第47-49页
结论	第49-50页
展望	第50-51页
参考文献	第51-55页
攻读学位期间发表论文与研究成果清单	第55-56页
致谢	第56页