基于图结构的中文文本聚类方法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户：greenhight

【摘要】

：

随着计算机技术的迅速发展和普及，电子信息日益增多，人们已经从信息资源匮乏的时代迅速过渡到信息极为丰富的数字化时代。面对海量的信息资源，人们很难迅速有效的找到真正所需的

【作者】

：

刘巧凤

【机构】

：

大连理工大学

【出处】

：

大连理工大学

【发表日期】

：

2009年期

【关键词】

：

图结构文本聚类文本表示文本相似度计算最大公共子图

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机技术的迅速发展和普及，电子信息日益增多，人们已经从信息资源匮乏的时代迅速过渡到信息极为丰富的数字化时代。面对海量的信息资源，人们很难迅速有效的找到真正所需的信息。因此，如何合理有效的组织和管理文本信息已经日益成为信息处理领域一个十分重要的研究课题。近年来，作为保证文本挖掘质量前提的文本表示方法的研究受到越来越多学者的重视。在本研究中我们从文本表示方法入手，将图论中的图结构技术应用到文本挖掘中，提出了一种新的基于图结构的文本表示方法。与传统的基于统计向量的文本表示方法相比，图结构更有利于文本的结构信息的表示。在保留了文本特征项的同时，还可以描述特征项间的位置关系及关联强弱。研究内容主要包含以下部分。首先是文本表示模型的提出。在分析了传统文本表示模型现状的基础上提出了基于图结构的中文文本表示模型。将文本特征项表示成图结构节点，特征项间的共现关系描述为图结构的边，进而将文本映射为图结构，有效的解决了文本表示过程中的信息流失问题。其次是相似度计算方法的引入。与图结构的文本表示方法相对应，我们提出了一种适于此文本表示方法下的文本相似度计算方法——最大公共子图算法。将相似度的计算分解成内容的相似度与结构的相似度，使得文本相似度度量考虑因素更加全面。假设两个图结构公共的部分越多，那么它们所对应的文本间的相似度就越大，因此利用最大公共子图的特性度量两个文本的相似程度。再次是聚类算法的改进。提出了扩展的K-means聚类算法，引入了中值图的概念将其作为图集中心用以度量单个图结构与图集间的距离，使聚类算法适用于图结构表示的文本聚类。最后是实验验证。通过对已有分类标注的分类语料进行聚类，应用准确率、召回率和F-Score指标对聚类结果进行评价。

其他文献

基于混合传感的多级火灾检测系统研究

近年来,随着社会的不断发展,人民物质生活水平及精神文化水平不断提高,火的使用明显增加,但随之而来的是火灾的发生频率及其带来的危害、损失也不断增加。因此,火灾检测控制

学位

火灾检测混合传感多级检测图像处理

基于蓝牙的心电采集及无线传输电路的设计

心脏疾病严重威胁着人类的生命与健康,如果某人长期心率失常,他就可能存在着心脏疾病。而且心脏疾病具有突发性,如果不及时发现,可能会因此而失去生命。因此,在日常生活中进

学位

心电放大滤波电路国标STM32心率

基于不确定性分析的移动机器人室内定位与导航控制方法研究

从位置固定的工业机器人到可以在环境中自由运动的移动机器人，过去几十年里机器人的机动性、环境适应性和智能化程度均得到了显著提升，应用范围不断扩大。目前结构化环境中的移

学位

移动机器人室内定位导航控制扫描匹配全局定位轨迹跟踪

基于OCL的产品约束研究和实现

随着大规模定制日益成为现代工业发展的趋势，产品配置作为实现大规模定制的重要方法，也成为当前研究的热点之一。实现产品配置的两个主要技术是配置模型管理和产品约束管理。由

学位

大规模定制产品配置可视化建模语言对象约束语言产品约束

基于图结构的中文文本聚类方法研究

其他学术论文