基于标签分析的网页正文提取技术研究

中文摘要	第1-4页
英文摘要	第4-8页
1 绪论	第8-14页
·选题背景与研究意义	第8-9页
·网页正文提取研究现状	第9-12页
·国内外网页正文提取的现状	第9-11页
·选题意义及改进思路	第11-12页
·论文组织结构	第12-13页
·本章小结	第13-14页
2 八大网站中网页的基本特征及结构分析	第14-28页
·HTML 语法分析	第14-19页
·HTML 简介	第14-19页
·HTML 结构分析	第19页
·XML 语法分析	第19-21页
·XML 简介	第19-20页
·XML 的结构分析	第20-21页
·XHTML 语法分析	第21-23页
·XHTML 简介	第21页
·XHTML 结构分析	第21-23页
·传统的网页特征描述与提取方法	第23-26页
·网页特征描述模型	第23-24页
·网页特征抽取方法	第24-26页
·八大门户网站中网页的相似结构及提取方法	第26-27页
·本章小结	第27-28页
3 与网页正文相关的文字和图像超链接分析	第28-36页
·网页中的文字和图像超链接分析	第28-30页
·出现文字链接的原因及其特点	第28页
·出现图像链接的原因及其特点	第28-30页
·与网页正文无关的广告超链接判定方法	第30-32页
·超链接地址URL 的语法	第30-32页
·判定广告超链接的计算模型	第32页
·基于超链接分析的网页正文内容判定	第32-35页
·网页正文判定的启发式规则	第32-33页
·网页正文判定算法	第33-35页
·本章小结	第35-36页
4 基于区域分块的 HTML 网页正文提取技术	第36-49页
·基于区域分块的HTML 的元素删除法提取网页正文	第37-47页
·Head 和Body 区域块	第37页
·取出head 区域块中的网页标题	第37-39页
·取出Body 区域块中的网页正文标题	第39-43页
·基于区域分块的HTML 元素删除法提取网页正文的算法描述	第43-47页
·该算法的部分关键程序实现（参考附录C）	第47页
·基于区域分块的HTML 元素嵌入式提取法提取网页正文内容	第47-48页
·Head 和Body 区域块	第47页
·确定网页标题的位置	第47页
·确定网页正文标题的位置	第47页
·确定网页正文内容的位置	第47页
·算法描述	第47-48页
·本章小结	第48-49页
5 实验与分析	第49-58页
·基于区域分块的HTML 元素删除法提取网页正文	第49-53页
·对比实验一	第49-51页
·对比实验二	第51-53页
·基于区域分块的HTML 元素嵌入式提取法提取网页正文	第53-57页
·对比实验一	第53-55页
·对比实验二	第55-57页
·本章小结	第57-58页
6 总结与展望	第58-60页
·论文创新点总结	第58-59页
·研究展望	第59-60页
致谢	第60-61页
参考文献	第61-64页
附录	第64-68页
A. 作者在攻读硕士学位期间发表的论文目录	第64页
B. 作者在攻读学位期间取得的科研成果目录	第64-65页
C. 基于HTML(以及XHTML 或XML)算法的部分关键程序实现	第65-68页