一种基于频繁概念集的文本聚类方法

来源 :计算机系统应用 | 被引量 : 0次 | 上传用户:bassdd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对传统文本表示模型的不足以及文本向量的“高维诅咒”问题,本文提出一种基于频繁概念集的文本聚类方法(CFC)。该方法利用HowNet将文本中的关键词映射为概念,然后使用Apriori算法找出概念文本集中的频繁特征项,我们称之为频繁概念,最后利用CFC算法实现文本聚类。实验表明,较传统的基于频繁特征项的同类方法,该方法能获得更好的聚类效果。
其他文献
针对电子文档内容的版权保护问题和现有文本信息隐藏算法鲁棒性不强的特点,提出了一种基于点阵式字符编码的文本信息隐藏算法。该算法先对要隐藏的信息进行点阵式编码处理,使
基于对KIWI数据格式的索引数据和地图数据的统计分析,总结出其组织和存储的规律。针对嵌入式设备的应用特点,提出了一种基于内存池的数据组织方法,并给出了相关类的结构定义和核
近年来,随着人们对能量需求的日益增大,已商业化应用的石墨电极已经很难满足高性能电子产品对高能量密度的需求,因此发展高能量密度的锂离子电池显得尤为重要。在已研究的先
本文针对多环互连的弹性光突发交换环网的控制结构展开了研究探讨,针对目前RPR与OBS网络提出的信道分配与调度算法,虽然在一定程度上提高了信道的利用率,但始终没有从全网角度考
提出了一种基于CC2430的便携式无线搜救器的设计方法。该设计方法根据佩戴在遇难人员身上酬CC2430射频卡发往搜救器的无线数据帧所含的RSSI值,通过数学转换为遇难人员与搜救器
为满足大容量实时数据库对访问请求的快速响应,需要设计一种高效的内存查询算法。在分析现有HASH算法的特点之后,结合实时数据库访问的特点,重新设计了一种HASH算法,经过测试,重新
以松木为模板,使用模板法制备了不同铈锆含量的CexZr1-xO2复合氧化物的催化剂,用于餐饮废油与甲醇进行酯交换反应合成生物柴油.采用BET、SEM对CexZr1-xO2进行表征分析.研究不同
针对服务覆盖网的服务路径选择问题,提出改进的KCP算法。在后继结点选择时,使用节点延迟、剩余资源、链路带宽、延迟等表征节点和链路性能的多项指标,组合成综合性能函数;引入调
知识表示方法在表达、传递和共享过程中,不能同时满足表示能力、可理解性、可操作性以及可实现性的要求。针对上述问题,本文采用本体的知识表示方法,根据产品概念设计的特点,提出