基于AP算法的文本聚类研究与实现

来源 :东北大学 | 被引量 : 7次 | 上传用户:aspl12315
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网每天都会产生海量文本、视频、图像等信息形式,其中文本作为重要的信息载体之一占据着越来越重要的地位。文本数量的激增,导致了严重的文本冗余,文本间关系混杂,使得从大量的文本信息中查找出某类价值信息变得非常困难,在这种背景下产生了文本聚类研究。文本聚类是指将一个文本集合按照一定规则划分成不同的簇,使得在同一簇内的文本描述同一主题,从属不同簇的文本相关性较小的技术。文本聚类技术有非常广泛的应用,如利用文本聚类技术分析微博、聚类同一类型的新闻等。数据量急剧增长的今天,研究大数据量的文本聚类是研究趋势,设计数据处理能力强、准确性高的文本聚类过程变得非常有意义。鉴于研究文本聚类技术的重要性,本文设计基于Hadoop的文本聚类过程,实现提高文本聚类数据处理能力和执行效率的目标。选择AP (Affinity Propagation)算法作为聚类算法,达到提高文本聚类准确性的目标。相比于传统的聚类算法,AP算法有很多优点。同时对算法的实现应用优化策略,提高聚类的执行效率。本文主要贡献点有三个:(1)应用Hadoop平台实现文本聚类过程。将文本聚类流程应用到的技术用MapReduce编程框架实现,达到并行处理文本集合的目的。(2)提出基于词库结合TF-IDF(Term Frequency-Inverse Document Frequency)信息的划分规则对数据集进行划分,减少聚类过程中的通信量,避免不必要的相似度计算。(3)应用AP算法进行聚类,并对执行过程进行优化,减少聚类过程中的网络通信量,提高算法的执行效率。本文实现了完整的文本聚类过程,由实验效果可以发现,并行文本聚类过程非常适合处理大数据量的文本聚类问题。同时对AP算法的研究表明,AP算法虽然通信量较高,但在实现过程中可以通过剪枝优化和一些执行优化策略提高聚类效率,而且它具有很高的聚类准确性。
其他文献
随着信息技术的飞速发展,在计算机和网络给人们的生活带来极大方便的同时,信息安全问题成为人们关注的焦点,安全评估工作成为保障信息系统安全的重要手段。在信息安全风险评估工
语言文字是信息的首要载体。人们日常工作中的信息,绝大部分是以语言文字表达、记载、传播和交换的。因此,随着计算机和因特网的推广应用,由数据处理、信息处理发展到知识处
Internet和无线通信的飞速发展使人们能通过网络方便快捷地获取图像和视频数据。然而,这也使得数字内容的非法复制及盗版成为可能。因此,数字内容的版权保护提上了日程。密码
群居的昆虫具有很好的群体智能,蚁群算法正是从此仿生学的机理中受到启发而提出的一种进化算法或元启发(metahueristic)算法。它可以很好地解决并优化许多复杂的问题,得到了
随着计算机技术和网络技术的迅猛发展,大量的企业通过信息化提高企业的管理和服务水平,但是由于我国信息化建设的基础相对比较薄弱,特别是应用水平比较低,大多数企业在建立信
无线射频识别技术(Radio Frenquency Identification,简称RFID)是一种非接触式的自动识别技术,它利用射频方式在射频电子标签和读写设备之间进行无线双向通信,从而完成目标识别
由于我国经济的快速发展,大城市中交通拥堵成为了普遍的现象。找到一条方便快捷的路径,顺利地到达目的地,成了人们出行的迫切需要。一般地,在路径规划中,人们往往根据导航选
探索式搜索描述了用户不了解目标领域,或者是用户的搜索任务相对比较复杂,或者系统对信息的索引不充分时用户所进行的搜索行为。在探索式探索中,很多研究提出了适用于用户不
随着军事变革在全球范围内的迅速发展,战争的形势已由“平台中心战”逐渐转变成“网络中心战”。因此,计算系统成为指挥控制系统的重要部件。目前,我军指挥控制系统的设计和研制
随着计算机和通信技术的发展,人们对Internet的需求已经越来越超乎想象,因此更多、更合理的控制机制对现有网络的顺畅运作起着非常重要的作用,其中最基本、最关键的就是网络