中文web文本过滤技术研究

摘要	第1-5页
Abstract	第5-10页
第1章绪论	第10-15页
·研究目的、意义及背景	第10-11页
·国内外研究状况	第11-13页
·信息过滤技术领域	第11页
·Web 信息内容识别和提取领域	第11-12页
·Web 文本分类领域	第12-13页
·论文结构安排	第13-15页
第2章网络信息过滤相关问题综述	第15-20页
·Web 信息介绍	第15-17页
·Html 语言结构	第15-16页
·文档对象模型（DOM）	第16-17页
·信息过滤系统的基本结构	第17-18页
·信息过滤系统的分类	第18-19页
·文本过滤的性能评价	第19-20页
第3章中文 web 文本过滤关键技术分析	第20-35页
·文本表示模型	第20-22页
·布尔模型(Boolean Model)	第20-21页
·概率模型(Probabilistic Model)	第21页
·向量空间模型(Vector Space Model,VSM)	第21-22页
·文本分类算法	第22-25页
·几种主要的分类算法	第23-25页
·各分类算法比较	第25页
·中文分词技术	第25-27页
·中文分词问题及解决方法	第27-28页
·网页文本特征选择及特征项权重计算方法	第28-31页
·特征提取	第28-30页
·常用权重计算函数	第30-31页
·用户兴趣模型的创建与更新	第31-35页
·用户兴趣需求信息的获取	第32页
·用户兴趣模型的创建	第32-33页
·用户兴趣模型的更新	第33-35页
第4章中文 web 信息抽取及过滤器研究与设计	第35-51页
·基于HTML 树和内容分析的可适应性信息抽取	第35-44页
·中文web 正文内容抽取方法存在的问题和困难	第35-36页
·基于HTML 树和内容分析的可适应性信息抽取算法	第36-43页
·实验结果与分析	第43-44页
·适用于网页文本的多元信息向量空间的提出	第44-49页
·向量空间模型及其分析	第45-46页
·多元信息向量空间模型过滤器	第46-48页
·实验结果与分析	第48-49页
·本章小结	第49-51页
第5章中文 web 过滤原型系统的设计及实现	第51-62页
·基于DOM 的网页解析模块	第52页
·分词子模块	第52-55页
·分词处理	第52-54页
·去除停用词	第54-55页
·特征提取与权值计算模块	第55-56页
·用户需求与阈值初始化模块	第56-57页
·过滤匹配模块	第57-58页
·用户反馈模块	第58-59页
·系统实现及结果分析	第59-61页
·本章小结	第61-62页
第6章总结展望	第62-63页
·本文总结	第62页
·未来展望	第62-63页
参考文献	第63-67页
发表论文和科研情况说明	第67-68页
致谢	第68页