基于向量空间模型的网页信息过滤方法研究

摘要	第1-5页
Abstract	第5-9页
1 绪论	第9-15页
·内容安全	第9-13页
·信息安全	第9页
·内容安全概述	第9-10页
·内容安全现状	第10-12页
·内容安全和信息过滤	第12-13页
·研究意义	第13页
·本文工作	第13-14页
·论文结构	第14-15页
2 网页信息过滤关键技术	第15-28页
·中文分词	第15-17页
·中文分词存在的问题	第15-16页
·中文分词方法	第16-17页
·文本表示	第17-23页
·向量空间模型	第17-19页
·特征项的选择	第19-20页
·特征项权重的计算	第20-22页
·改进的基于HTML标记加权的权重计算	第22-23页
·特征提取	第23-28页
3 网页正文内容抽取方法	第28-39页
·网页正文内容抽取介绍	第28-30页
·网页正文内容抽取方法存在的问题和困难	第28-29页
·本文采用的网页正文内容抽取方法	第29-30页
·基于中文标点符号的网页正文信息抽取方法	第30-39页
·网页中中文标点符号的分布特征	第30页
·网页内容结构化表示	第30-36页
·网页正文内容的提取	第36-37页
·实验结果与分析	第37-39页
4 网页信息过滤系统的设计与实现	第39-58页
·系统总体结构设计	第39-40页
·网页内容过滤模型	第40-42页
·HTTP数据包的截获和还原	第42-49页
·HTTP数据包截获方法选择	第42-45页
·HTTP数据包截获流程	第45-46页
·HTTP响应结构	第46-47页
·HTTP数据包还原	第47-49页
·向量空间模型的生成	第49-51页
·过滤算法设计	第51-56页
·以训练样本得到的向量为基准	第53-54页
·以待判定网页特征词集得到的向量为基准	第54-55页
·阈值的设定	第55-56页
·实验结果与分析	第56-58页
·评价指标	第56页
·实验结果	第56-58页
结论	第58-60页
参考文献	第60-63页
附录A 向量空间模型生成代码	第63-65页
攻读硕士学位期间发表学术论文情况	第65-66页
致谢	第66-67页