一种基于频繁概念集的文本聚类方法

来源 :计算机系统应用 | 被引量 : 0次 | 上传用户：bassdd

【摘要】

：

针对传统文本表示模型的不足以及文本向量的“高维诅咒”问题,本文提出一种基于频繁概念集的文本聚类方法（CFC）。该方法利用HowNet将文本中的关键词映射为概念,然后使用Apriori

【作者】

：

肖杰黄汉永张驹

【机构】

：

中南大学信息科学与工程学院

【出处】

：

计算机系统应用

【发表日期】

：

2009年5期

【关键词】

：

文本聚类概念映射频繁项集 CFC算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对传统文本表示模型的不足以及文本向量的“高维诅咒”问题,本文提出一种基于频繁概念集的文本聚类方法（CFC）。该方法利用HowNet将文本中的关键词映射为概念,然后使用Apriori算法找出概念文本集中的频繁特征项,我们称之为频繁概念,最后利用CFC算法实现文本聚类。实验表明,较传统的基于频繁特征项的同类方法,该方法能获得更好的聚类效果。

其他文献

基于点阵式字符编码的文本信息隐藏算法

针对电子文档内容的版权保护问题和现有文本信息隐藏算法鲁棒性不强的特点,提出了一种基于点阵式字符编码的文本信息隐藏算法。该算法先对要隐藏的信息进行点阵式编码处理,使

期刊

HVS点阵式字符编码信息隐藏文本信息HVS dot-matrix character code information hiding text i

基于内存池的KIWI数据组织方法研究

基于对KIWI数据格式的索引数据和地图数据的统计分析，总结出其组织和存储的规律。针对嵌入式设备的应用特点，提出了一种基于内存池的数据组织方法，并给出了相关类的结构定义和核

期刊

KIWI数据格式内存池页面置换算法

微纳结构硅在锂离子电池中的研究现状

近年来,随着人们对能量需求的日益增大,已商业化应用的石墨电极已经很难满足高性能电子产品对高能量密度的需求,因此发展高能量密度的锂离子电池显得尤为重要。在已研究的先

期刊

锂离子电池硅基材料负极材料微纳结构

光多环互连的弹性光突发交换环的信道调度

本文针对多环互连的弹性光突发交换环网的控制结构展开了研究探讨，针对目前RPR与OBS网络提出的信道分配与调度算法，虽然在一定程度上提高了信道的利用率，但始终没有从全网角度考

期刊

弹性分组环光突发性交换信道分配业务调度

基于CC2430的无线搜救定位系统

提出了一种基于CC2430的便携式无线搜救器的设计方法。该设计方法根据佩戴在遇难人员身上酬CC2430射频卡发往搜救器的无线数据帧所含的RSSI值，通过数学转换为遇难人员与搜救器

期刊

CC2430无线搜救RSSI802.15.14/Zigbee优先调度CC2430 wireless RSSI 802.15.4/Zigbee

用于工业控制系统的HASH算法

为满足大容量实时数据库对访问请求的快速响应，需要设计一种高效的内存查询算法。在分析现有HASH算法的特点之后，结合实时数据库访问的特点，重新设计了一种HASH算法，经过测试，重新

期刊

HASH算法内存查询算法

模板法制备CexZr1-xO2及催化餐饮废油合成生物柴油

以松木为模板，使用模板法制备了不同铈锆含量的CexZr1-xO2复合氧化物的催化剂，用于餐饮废油与甲醇进行酯交换反应合成生物柴油.采用BET、SEM对CexZr1-xO2进行表征分析.研究不同

期刊

生物模板CexZr1-xO1餐饮废油生物柴油酯交换反应biological template CexZri1-xO 2 waste cooking

服务覆盖网中保证QoS的服务路由算法

针对服务覆盖网的服务路径选择问题，提出改进的KCP算法。在后继结点选择时，使用节点延迟、剩余资源、链路带宽、延迟等表征节点和链路性能的多项指标，组合成综合性能函数；引入调

期刊

服务覆盖网服务组合服务路由服务质量负载均衡SON（Service Overlay Networks） service composition se

基于本体的产品知识表示方法研究

知识表示方法在表达、传递和共享过程中，不能同时满足表示能力、可理解性、可操作性以及可实现性的要求。针对上述问题，本文采用本体的知识表示方法，根据产品概念设计的特点，提出

期刊

本体概念设计知识表示功能-行为-结构(F—B—S)

一种基于频繁概念集的文本聚类方法

其他学术论文