基于图结构的中文文本聚类方法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:greenhight
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的迅速发展和普及,电子信息日益增多,人们已经从信息资源匮乏的时代迅速过渡到信息极为丰富的数字化时代。面对海量的信息资源,人们很难迅速有效的找到真正所需的信息。因此,如何合理有效的组织和管理文本信息已经日益成为信息处理领域一个十分重要的研究课题。近年来,作为保证文本挖掘质量前提的文本表示方法的研究受到越来越多学者的重视。 在本研究中我们从文本表示方法入手,将图论中的图结构技术应用到文本挖掘中,提出了一种新的基于图结构的文本表示方法。与传统的基于统计向量的文本表示方法相比,图结构更有利于文本的结构信息的表示。在保留了文本特征项的同时,还可以描述特征项间的位置关系及关联强弱。 研究内容主要包含以下部分。首先是文本表示模型的提出。在分析了传统文本表示模型现状的基础上提出了基于图结构的中文文本表示模型。将文本特征项表示成图结构节点,特征项间的共现关系描述为图结构的边,进而将文本映射为图结构,有效的解决了文本表示过程中的信息流失问题。 其次是相似度计算方法的引入。与图结构的文本表示方法相对应,我们提出了一种适于此文本表示方法下的文本相似度计算方法——最大公共子图算法。将相似度的计算分解成内容的相似度与结构的相似度,使得文本相似度度量考虑因素更加全面。假设两个图结构公共的部分越多,那么它们所对应的文本间的相似度就越大,因此利用最大公共子图的特性度量两个文本的相似程度。 再次是聚类算法的改进。提出了扩展的K-means聚类算法,引入了中值图的概念将其作为图集中心用以度量单个图结构与图集间的距离,使聚类算法适用于图结构表示的文本聚类。 最后是实验验证。通过对已有分类标注的分类语料进行聚类,应用准确率、召回率和F-Score指标对聚类结果进行评价。
其他文献
七月二十七日,南阳地区新闻协会成立。南阳地区新闻宣传界三十余名代表开会,通过了协会的章程,选举了协会的工作人员。近年来,南阳地区新闻队伍不断发展壮大,新闻传播手段日
3月中旬,广东省人民广播电台新闻部组织了一次郊游活动,除了记者之外,还特地邀请了记者的家属一起参加。整个活动,生动活泼,颇有情趣。新闻部的领导在郊游活动中,还对家属们
近年来,随着社会的不断发展,人民物质生活水平及精神文化水平不断提高,火的使用明显增加,但随之而来的是火灾的发生频率及其带来的危害、损失也不断增加。因此,火灾检测控制
一等奖 项目名称 主要完成单位 液氨直接施肥技术研究、示范、推广 兵团液氨办等 陆地棉“军棉一号”的推广 农一、二、三师 SC704玉米杂交种的引种推广 兵团种子公司 Firs
心脏疾病严重威胁着人类的生命与健康,如果某人长期心率失常,他就可能存在着心脏疾病。而且心脏疾病具有突发性,如果不及时发现,可能会因此而失去生命。因此,在日常生活中进
从位置固定的工业机器人到可以在环境中自由运动的移动机器人,过去几十年里机器人的机动性、环境适应性和智能化程度均得到了显著提升,应用范围不断扩大。目前结构化环境中的移
随着大规模定制日益成为现代工业发展的趋势,产品配置作为实现大规模定制的重要方法,也成为当前研究的热点之一。实现产品配置的两个主要技术是配置模型管理和产品约束管理。由
辽北地区具有“两杂”制种得天独厚的自然优势,近几年制种量不断增加。但由于当地生育期较短,种子成熟后温度下降快,种子含水量较高,影响种子质量。为解决这一矛盾,近几年我
西大沟乡1987年种植玉米15800亩,总产玉米1732万斤,平均单产1096.2斤;玉米间作黄豆9000亩,平均单产20斤,总产18万斤,玉米黄豆合计平均单产1107.6斤,比86年平均单产728.2斤,8
爱开夏燕麦株高122—156厘米。它具有生长快、成熟早、茎粗叶茂、鲜草产量高、收获种籽多、叶质柔软多汁、适口性好和营养丰富等优点。在各种土壤上均可栽培种植。最好在10