摘要 | 第1-5页 |
Abstract | 第5-11页 |
第1章 绪论 | 第11-21页 |
·研究课题的选题背景和意义 | 第11-12页 |
·国内外相关工作综述 | 第12-19页 |
·网页信息动态采集技术 | 第12-13页 |
·中文网页正文提取技术 | 第13-15页 |
·自动文档摘要技术 | 第15-17页 |
·文本自动分类技术 | 第17-18页 |
·网页去重技术 | 第18-19页 |
·论文的工作与组织结构 | 第19-21页 |
·论文的主要研究工作 | 第19-20页 |
·论文内容安排 | 第20-21页 |
第2章 基于网站优先级调整的网页信息动态采集算法 | 第21-27页 |
·算法流程图 | 第21-23页 |
·网页时新度算法 | 第23页 |
·基于网页时新度的网站优先级调整算法 | 第23-25页 |
·基于网站优先级的多线程网页信息采集技术 | 第25-26页 |
·根据网页类别确定优先级 | 第26页 |
·本章小结 | 第26-27页 |
第3章 基于文字密度的网页正文提取算法的研究 | 第27-33页 |
·算法流程图 | 第27页 |
·正文文本特征的识别与处理 | 第27-28页 |
·网页源码的预处理 | 第28-29页 |
·网页正文源码行中文密度的计算 | 第29页 |
·网页源码正文分块 | 第29页 |
·去除伪网页源码正文块 | 第29-31页 |
·辅助网页源码正文识别方法 | 第31页 |
·网页正文原始格式的保留问题 | 第31页 |
·本章小结 | 第31-33页 |
第4章 基于主题词标引的网页分类算法研究 | 第33-52页 |
·概述 | 第33-34页 |
·开放性测试和封闭性测试 | 第34-35页 |
·算法性能评估指标 | 第35-36页 |
·与网页分类算法相关的基础性研究 | 第36-42页 |
·文本的表示 | 第36-37页 |
·构建基于向量模板的向量空间模型 | 第37页 |
·构建基于哈希表的向量空间模型 | 第37-39页 |
·基于概念分析的主题词抽取算法 | 第39-40页 |
·一种改进的向量余弦相似度算法 | 第40-42页 |
·基于主题词标引的类别中心向量分类算法 | 第42-46页 |
·生成分类器模型 | 第43页 |
·分类算法 | 第43页 |
·向量的归一化 | 第43页 |
·兼取类别数对分类准确性的影响 | 第43-44页 |
·文档类别分布对分类正确率的影响 | 第44页 |
·中心向量的修正算法 | 第44-46页 |
·分类算法的自适应性 | 第46页 |
·KNN(K 近邻)分类算法 | 第46-48页 |
·CKNN(聚类K 近邻)分类算法 | 第48-50页 |
·本章小结 | 第50-52页 |
第5章 基于相似度的文本摘要方法的研究 | 第52-64页 |
·基于相似度的文本摘要方法 | 第52页 |
·文档结构模型 | 第52页 |
·分段和分句 | 第52-54页 |
·主题词的提取 | 第54-55页 |
·主题词串的向量化 | 第54页 |
·构建文档结构向量空间模型 | 第54-55页 |
·计算文档结构各部分的权重 | 第55-57页 |
·正规则和负规则 | 第57页 |
·用户倾向性词表 | 第57页 |
·基于语句相似度的语句冗余度算法 | 第57-58页 |
·摘要和原文比例的确定 | 第58页 |
·摘要句的选取和摘要的生成 | 第58页 |
·本文摘要技术在提取中文网页摘要中的应用 | 第58-63页 |
·预提取网页正文对提高摘要准确性的作用 | 第59-62页 |
·提高摘要算法实时性的措施 | 第62-63页 |
·本章小结 | 第63-64页 |
第6章 实验设计和数据分析 | 第64-88页 |
·基于网站优先级调整的网页信息动态采集技术的实验及分析 | 第65-70页 |
·实验设计 | 第65-66页 |
·数据分析 | 第66-69页 |
·存在的不足及下一步的改进工作 | 第69-70页 |
·基于中文密度算法的中文网页正文提取技术的实验及分析 | 第70-71页 |
·实验设计 | 第70页 |
·数据分析 | 第70页 |
·存在的不足及下一步的改进工作 | 第70-71页 |
·课题中两种文档向量表示方法的比较性实验及分析 | 第71-74页 |
·试验设计 | 第71页 |
·数据分析 | 第71-74页 |
·改进的余弦向量相似度算法的实验及分析 | 第74-76页 |
·试验设计 | 第74页 |
·数据分析 | 第74-76页 |
·基于主题词标引的类别中心向量分类算法的实验及分析 | 第76-79页 |
·试验设计 | 第76页 |
·数据分析 | 第76-78页 |
·存在的问题和下一步的工作 | 第78-79页 |
·CKNN 分类算法的实验及分析 | 第79-80页 |
·试验设计 | 第79页 |
·数据分析 | 第79-80页 |
·存在的问题和下一步的工作 | 第80页 |
·KNN 分类算法的试验设计和数据分析 | 第80-82页 |
·试验设计 | 第80-81页 |
·数据分析 | 第81-82页 |
·类别中心向量分类算法、CKNN 分类算法和KNN 分类算法的性能比较 | 第82-83页 |
·试验设计 | 第82页 |
·数据分析 | 第82-83页 |
·基于相似度的文档摘要技术的实验及数据分析 | 第83-85页 |
·试验设计 | 第83-84页 |
·数据分析 | 第84-85页 |
·存在的问题和下一步的工作 | 第85页 |
·网页信息搜集系统的实验及数据分析 | 第85-87页 |
·试验设计 | 第85-86页 |
·数据分析 | 第86页 |
·存在的问题和下一步的工作 | 第86-87页 |
·本章小结 | 第87-88页 |
第7章 网页信息动态采集系统的设计与实现 | 第88-95页 |
·系统的构成 | 第88-89页 |
·系统各模块的集成 | 第89-93页 |
·网页分类模块的自适应性 | 第93页 |
·系统运行状态监测程序 | 第93页 |
·基于主题词标引的网页去重方法 | 第93-94页 |
·本章小结 | 第94-95页 |
总结 | 第95-97页 |
参考文献 | 第97-101页 |
攻读硕士学位期间所发表的论文 | 第101-102页 |
致谢 | 第102-103页 |
个人简历 | 第103页 |
攻读硕士学位期间参与的科研项目 | 第103页 |