首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于Web的企业竞争情报智能搜集平台中页面分析存储的研究

摘要第1-4页
Abstract第4-9页
第一章 绪言第9-15页
   ·基于主题的Web信息采集研究的产生背景第9-10页
   ·基于主题的Web信息采集的研究与应用现状第10-12页
     ·国外现状第10-11页
     ·国内现状第11-12页
   ·本课题未来的应用第12页
   ·本课题的主要研究内容第12-13页
   ·本课题的开展的步骤第13页
   ·论文的结构第13-15页
第二章 相关标准第15-23页
   ·HTML (Hyper Text Markup Language)第15-16页
   ·HTML标签第16-23页
第三章 相关技术综述第23-35页
   ·Bot技术第23-24页
     ·网络机器人的结构分析第23页
     ·使用Bot包解析HTML第23-24页
     ·使用Bot包下载所需网页内容第24页
     ·小节第24页
   ·HTMLParser技术第24-28页
     ·HTMLParser使用方法简介第24-28页
       ·提出问题第24-25页
       ·分析问题第25-26页
       ·解决问题第26-28页
   ·中文切分词机制第28-35页
     ·什么是中文分词第28-29页
     ·中文分词和搜索引擎第29-30页
     ·中文分词技术第30-32页
     ·分词中的难题第32-33页
     ·中文分词的应用第33-35页
第四章 基于主题的信息采集分类资源管理平台第35-38页
   ·总体框架第35-36页
   ·各部分的功能第36-38页
     ·采集部分第36-37页
     ·提取文档集向量部分第37页
     ·网页分类部分第37页
     ·检验网页抽取内容部分第37-38页
第五章 基于改进的Bot包的网页采集第38-51页
   ·网络机器人的结构分析第38页
   ·如何解析HTML第38-39页
   ·Spider程序结构第39-40页
   ·如何构造Spider程序第40-42页
   ·如何提高程序性能第42-43页
   ·采集网页程序实现操作过程第43-44页
   ·如何修改Bot包第44-48页
     ·提取锚文本第44-48页
       ·添加父网页的url用途第45-46页
       ·添加父网页的url方法第46-48页
     ·记录网页等信息的存放地址的方法第48页
   ·提取有效的可以处理的网页第48-51页
第六章 VSM网页分类第51-87页
   ·提取文档集向量第51-53页
     ·向量空间模型(VSM)第51页
     ·向量空间模型(VSM)概念第51-52页
     ·向量空间模型(VSM)概念描述第52-53页
     ·文档集的向量第53页
   ·提取文档集向量程序的实现第53-69页
     ·提取文档集向量的程序操作说明第54-55页
     ·提取文档集向量的程序功能说明第55-57页
     ·提取文档集向量的函数train()说明第57-60页
     ·读取文件的函数readInput()说明第60页
     ·抽取中英文信息的函数extractEnglishSubstring()和extractChineseSubString()说明第60-63页
     ·中文分词的说明第63-66页
     ·添加临时特征项到最终特征项的函数addWorkString()的说明第66-67页
     ·添加最终特征项数据库的函数storeToDatabase()和有关数据库的说明第67-68页
     ·小结第68-69页
   ·网页分类第69-84页
     ·网页分类流程第69-70页
     ·网页分类程序的实现第70-73页
     ·网页分类中获取锚文本、title文本和keywords文本的程序说明第73-80页
       ·网页分类中获取锚文本的程序说明第73-76页
       ·网页分类中获取有关文木前对网页预处理的程序说明第76-77页
       ·网页分类中获取title文本的程序说明第77-78页
       ·网页分类中获取keywords文本的程序说明第78-80页
     ·网页分类中获取主文本的程序说明第80-83页
     ·网页分类中锚文本、title文本和keywords文本特征项提取的程序说明第83-84页
     ·VSM网页分类程序说明第84页
   ·检验网页抽取内容程序的实现第84-85页
   ·实验数据第85-87页
第七章 总结与展望第87-90页
致谢第90-91页
参考文献第91-95页
附录:攻读学位期间发表论文情况第95页

论文共95页,点击 下载论文
上一篇:新疆高校体育教育专业毕业生就业现状与对策研究
下一篇:创业投资风险度量和控制研究