基于统计的网页质量评价技术研究与实现

摘要	第1-5页
Abstract	第5-9页
第1章绪论	第9-15页
·课题研究背景及意义	第9-10页
·研究背景	第9页
·研究意义	第9-10页
·本课题国内外相关研究	第10-13页
·网络信息资源评价研究综述	第10-11页
·基于链接分析的网页质量评价	第11-13页
·基于统计的网页质量评价概述	第13页
·本文主要研究内容与组织	第13-15页
第2章论坛网页的抓取及正文抽取	第15-27页
·论坛网页抓取	第15-20页
·论坛站点收集	第15页
·列表网页识别流程	第15页
·列表网页识别	第15-18页
·列表网页内容抽取	第18-20页
·网页正文抽取	第20-22页
·论坛网页正文抽取方法描述	第20-21页
·实验结果及分析	第21-22页
·网页编码识别	第22-26页
·编码简介	第22-23页
·N-gram语言模型简介	第23-24页
·编码识别	第24-25页
·测试结果	第25-26页
·实验结果分析	第26页
·本章小结	第26-27页
第3章基于统计的网页质量评价	第27-44页
·试验结果的评价指标	第27-28页
·特征词的选择	第28-33页
·常用的特征选择方法	第28-30页
·投票法的提出	第30页
·特征词选择方法的比较	第30-32页
·试验结果分析	第32-33页
·最大熵模型简介	第33-36页
·条件最大熵模型	第33-35页
·最大熵原则的数学表示	第35-36页
·最大熵模型的特征选择	第36页
·最大熵模型的优缺点	第36页
·网页质量评价相关问题研究	第36-43页
·非平衡训练集	第37-40页
·特征选取	第40-43页
·本章小结	第43-44页
第4章系统设计实现与评测	第44-49页
·系统总体模块设计	第44-45页
·系统主要模块简介	第45-46页
·系统性能测试	第46-47页
·试验结果分析	第47-48页
·本章小结	第48-49页
结论	第49-51页
参考文献	第51-55页
致谢	第55页