中文网页自动分类的研究及其应用

摘要	第1-5页
Abstract	第5-8页
1 绪论	第8-11页
·课题目的及意义	第8页
·国内外研究现状	第8-9页
·本文的主要工作	第9-11页
2 中文网页分类的相关技术	第11-22页
·文本分类的概念	第11-12页
·中文分词	第12-13页
·维数约简	第13-16页
·文本表示模型	第16-18页
·文本分类方法	第18-22页
·K最近邻法	第19-20页
·朴素贝叶斯方法	第20页
·支持向量机方法	第20-22页
3 网页分类有效信息的抽取	第22-39页
·网页信息抽取的研究进展	第22-23页
·网页的基本结构、特点和表示	第23-24页
·网页噪音过滤	第24-26页
·分类有效信息的抽取	第26-39页
·网页的真实标题	第26-32页
·网页的主题内容	第32-34页
·网页中重要标签的元素体	第34-35页
·相关链接的锚文本	第35-37页
·抽取结果	第37-39页
4 中文网页自动分类的实现	第39-50页
·自动分类的实现模型	第39页
·特征权重计算	第39-44页
·TF*IDF权重计算方法	第40-41页
·改进的TF*IDF权重计算方法	第41-44页
·分类效果的评价指标	第44-45页
·准确率与召回率	第44页
·F-measure值	第44-45页
·分类实验设置	第45-50页
·分类语料集介绍	第45页
·分类实验步骤	第45-46页
·实验结果及分析	第46-50页
5 公安局刑侦信息抽取与发布系统	第50-61页
·系统背景介绍	第50页
·系统功能实现	第50-58页
·网页抓取器	第51-54页
·网页信息抽取器	第54页
·网页分类模块	第54-56页
·数据库操作模块	第56-58页
·系统运行效果	第58-61页
结论	第61-63页
参考文献	第63-66页
攻读硕士学位期间发表学术论文情况	第66-67页
致谢	第67-68页