论文部分内容阅读
信息技术日益发展,网络上大量的新闻更是爆炸式出现,它们不同于以往的纸质新闻,打破了纸质新闻在时效性和广泛性方面的局限性。网络新闻打破时间空间的限制的同时覆盖了社会和日常生活的方方面面,这些涉及的领域包括社会板块、金融板块、经济板块以及体育板块等。然而,每位读者都有自己感兴趣的话题和报道,那些个人不关心的新闻话题便自动被归类为噪声。为了节省读者的时间,也为了让大家愉快的浏览自己感兴趣的网络新闻,本文设计并实现了新闻话题检测系统,将网络新闻进行分类整理,将同类新闻整理成专题,用户便可以深入了解整个话题,节约了时间的同时也提高了用户体验。本文就是在这样的研究背景下设计并实现了基于增量型聚类的新闻话题检测系统,在实现过程中依次进行如下几步完成:(1)在论文准备阶段先确定系统的需求,其中软件的功能性需求包括新闻采集,数据处理,话题检测,数据存储。非功能性需求则包括可用性,稳定性,易用性,安全性,可扩展性等。在确定需求的基础上查阅相关文献,了解目前新闻话题检测方面的国内外研究现状以及每种研究方式的可用性和存在的缺陷。通过对这些材料的研究以及本文的启发,设计并实现话题检测系统,并最终确定本文设计的系统框架包括以下三部分内容:新闻信息采集,新闻数据处理,基于增量型聚类的新闻话题检测。(2)接下来是具体的实现,该系统的实现过程中用到了很多的技术,比如在新闻信息采集中使用的网络爬虫技术、网页解析技术、信息抽取技术,在新闻文本分词过程中的分词技术。在话题检测过程本文在传统Single-Pass聚类算法的基础上考虑到新闻本身存在的特点,用向量空间模型表示文本,并提出增量式更新特征权重的思想,给予对话题区分重要的词更大的权重,从而提高了话题聚类的准确性。(3)本文设计的系统采用合适的B/S架构模式,这个架构包括数据访问层、表式层即界面设计以及业务逻辑层这三层结构,使用这个架构有以下优势:只需要浏览器就可以运行系统,节省了安装客户端的时间,简化了用户的使用流程。用户可以实时进行业务的处理,简单快捷。B/S架构使得用户和系统的交互性较强、需要付出的成本更低。B/S架构更新服务器即可,不需要对具体的多个客户端进行操作更新,对系统的改进往往通过对网页的改进即可实现。本文使用C#编程语言和SQL Server 2008数据库实现最终的系统开发。