新闻搜索分析平台的相关技术研究
摘要 | 第1-6页 |
ABSTRACT | 第6-10页 |
第1章 绪论 | 第10-17页 |
·课题研究的背景 | 第10页 |
·国内外研究现状 | 第10-14页 |
·网页信息采集技术及其软件 | 第11-12页 |
·国内外主要搜索引擎技术 | 第12-13页 |
·国内外主要搜索引擎针对新闻搜索的优缺点 | 第13页 |
·发展趋势 | 第13-14页 |
·课题主要研究工作 | 第14-15页 |
·论文结构组织 | 第15-17页 |
第2章 相关的知识与技术 | 第17-28页 |
·WEB页面的结构特点 | 第17-18页 |
·网页信息采集技术及其软件 | 第18-20页 |
·网络蜘蛛 | 第18-19页 |
·抓取策略 | 第19-20页 |
·网页抓取技术 | 第20-21页 |
·三层结构的B/S模式 | 第21-22页 |
·XML技术 | 第22-23页 |
·XML定义 | 第22-23页 |
·XML比较HTML具有的优势 | 第23页 |
·ASP.NET基本思想及架构 | 第23-26页 |
·.NET框架简介 | 第24-25页 |
·ASP.NET的几项关键技术 | 第25-26页 |
·SQL Server 2000 | 第26-27页 |
·本章小结 | 第27-28页 |
第3章 新闻搜索分析平台的构建 | 第28-34页 |
·新闻搜索分析平台的基本原理 | 第28-29页 |
·新闻搜索分析平台的功能 | 第29-31页 |
·新闻分类的设计 | 第29-30页 |
·新闻动态跟踪 | 第30页 |
·报纸对比 | 第30-31页 |
·新闻热点分析 | 第31页 |
·与通用搜索引擎的数据对比 | 第31-32页 |
·新闻搜索分析平台的特点 | 第32页 |
·本章小结 | 第32-34页 |
第4章 搜索代理和分类算法的设计 | 第34-42页 |
·搜索引擎HttpFetch的设计 | 第34-37页 |
·搜索引擎的数据库设计 | 第34-35页 |
·搜索引擎的程序设计 | 第35页 |
·针对各种信息源的抓取设计 | 第35-36页 |
·关于时间导入的设计 | 第36-37页 |
·javascript网站的抓取设计 | 第37页 |
·新闻文本自动分类算法 | 第37-41页 |
·国内外文本分类方法的研究现状 | 第38-39页 |
·KNN算法的采用 | 第39-40页 |
·KNN算法的设计 | 第40-41页 |
·本章小结 | 第41-42页 |
第5章 关键算法设计 | 第42-55页 |
·基于新闻要素的关键词文本去重算法 | 第42-43页 |
·网页去噪算法 | 第43-47页 |
·页面内容结构表示 | 第43-45页 |
·去噪算法设计依据 | 第45页 |
·去噪算法思想 | 第45-46页 |
·去噪算法设计 | 第46-47页 |
·新闻网页主题要素的抽取方法 | 第47-49页 |
·时间短语的抽取 | 第48-49页 |
·地点短语的抽取 | 第49页 |
·时间、地点短语与事件的联系 | 第49页 |
·文本去重算法 | 第49-54页 |
·网页重复的特点 | 第49-50页 |
·去重技术的现状 | 第50-51页 |
·去重算法的设计 | 第51-54页 |
·本章小结 | 第54-55页 |
结论 | 第55-56页 |
参考文献 | 第56-60页 |
攻读硕士学位期间发表的论文和取得的科研成果 | 第60-61页 |
致谢 | 第61-62页 |
个人简历 | 第62页 |