基于文本聚类的新闻信息聚合的研究

来源 :北京机械工业学院 北京信息科技大学 | 被引量 : 0次 | 上传用户:y871655121
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet的不断发展,网上新闻信息的获取已成为人们知识来源的主要途径。但是,随之而来的“信息爆炸”,使得人们通过搜索引擎或者浏览网页很难从大量的地搜索结果中获取方便的、有效的信息,这也成为当今面临的挑战。文本聚类可以对发现大量文本信息中的相互规律、潜在的联系,帮助用户从多种视角更清晰、直观的获得信息。 本文在研究一般聚类算法的基础上,通过对互联网新闻文本信息的文本特性的深入分析,通过对新闻文本的特征值抽取,实现了用K-means算法和后缀树聚类算法(STC)对新闻文本的处理,并通过实验验证了文本聚类算法的性能。构造了基于文本聚类的新闻信息聚合的模型系统。该系统从大量主流新闻媒体网站获取信息,实现了基于文本聚类对新闻信息聚合。 通过一系列实验,后缀树聚类算法由于在特征选择方面充分的考虑了文本特性,通过引入短语特征产生了较好的聚类结果。
其他文献
无线传感器网络,也称感知网,是一种由大量体形小、成本低,具有通信能力的传感器通过ad hoc方式形成的网络。其能够实时获取、分析、融合周边环境信息,反馈给后台用户,在环境
蚁群优化算法是思想源于自然现象的meta-heuristic算法,经历了十多年的发展已经成为解决很多优化问题的有效工具。最大团问题是经典的NP难的组合优化问题,它不仅在理论上有比
人体运动图像的背景分割是人体运动分析过程中的第一个步骤,是人体运动分析的低级处理部分。该阶段的处理效果直接影响到后续工作的进展,其分割结果对最终的人体运动分析结果
工作流管理系统是定义、创建和管理工作流运行的系统软件。它在企业级应用有着很大的市场,全世界有很多研究机构、软件厂商和大学都对工作流管理系统给予了极大的关注。国内
生长在不同的力学环境下的活体细胞将发生多种不同程度地适应性变化。定量研究细胞和亚细胞结构的运动和形态的动态变化特性,有助于理解力学刺激和细胞生长的关系,也有助于理解
可定向投放是网络广告的一大特点。数字时代的新技术使网络广告的定向投放成为可能:网络广告可以投放给某些特定的目标人群,甚至可以做到一对一的定向投放。数据挖掘作为一种先
目前世界上所有的数据库系统都没有提供故障排除的功能,全是容错概念,鉴于国内外技术现状归根结底都是容错技术,不可避免存在两个问题,一是允许故障共存,无法预防故障的发生,
使用IEEE 802.11协议的无线局域网(Wireless LAN, WLAN)当前已经有了广泛的市场应用,但是由于无线网络开放性的特点和802.11协议自身存在的缺陷,无线局域网的安全性一直受到
通过图形学的方法描述自然界的各类现象一直以来都是计算机图形学研究者所关注的重点,而对动态流体的模拟问题更是其中的难点研究问题。从流体模拟方法的发展进程来看,经典几
机器音译就是根据发音将给定的源语言中的专有名词自动翻译成目标语言对应的词汇的过程。相对于机器翻译而言,机器音译不存在语义层次的翻译要求,并且是一种顺序翻译的过程,