论文部分内容阅读
近年来,随着社会网络及个人博客、微博的成功,互联网已经全面进入开放、平等、去中心化为特点的Web2.0时代,网络信息资源的海量增长使互联网信息重复与信息过载的问题日趋严重。因此,如何将半结构化、离散分布的互联网信息动态关联并聚合起来,有效提供服务并促进知识共享,成为当前国内外学者主要研究方向。本文在研究文本聚类分析的基础上,借助中文分词、文本去重等技术,结合传统搜索引擎技术及RSS信息聚合技术,提出一种自动精炼Web信息、聚合语义相似信息的信息处理方法,以便根据潜在语义将相同或相似的Web信息自动聚合,及时发现新主题,追踪已有主题的演化趋势。本文主要研究内容包括:1、针对传统信息聚合技术缺乏对信息本身处理的问题,本文提出web信息自动聚合系统设计方案,根据功能不同将系统分为信息获取、信息预处理、按语义聚合三部分,并对每一部分的处理过程进行详细分析与设计。2、研究分析现有网页正文抽取技术,提出一种基于标点分布和标签相似度的多正文网页抽取技术,利用网络上爬取的网页进行实验,实现证明该方法能有效的将网页中的主要信息分正文抽取。3、深入研究文本主题模型,特别是能根据文本潜在语义信息对文本进行聚类的LDA主题模型;针对Web信息多样化、主题多变的特点对LDA进行一定改进,使只能处理离线的、无时间信息的LDA模型应用于在线的Web信息聚合系统中;实验分析表明,该算法可以根据潜在语义将所涉主题相关的文档归类,同时可以根据不同时间的主题分布和主题热度对主题进行演化分析。