【摘 要】
:
文本聚类在很多文本挖掘和信息检索系统中发挥着重要的作用。这种技术可以改善检索性能、提供导航/浏览机制、发现相似文本等。因此,对文本聚类的研究已成为数据挖掘中一个非
论文部分内容阅读
文本聚类在很多文本挖掘和信息检索系统中发挥着重要的作用。这种技术可以改善检索性能、提供导航/浏览机制、发现相似文本等。因此,对文本聚类的研究已成为数据挖掘中一个非常重要的课题。文本聚类的首要问题是文本数据的数学表示。目前多数文本聚类算法都是以向量空间模型(VSM)为基础的。这种文本表示方法非常简单,但却引发了高维稀疏的问题。而且,基于向量空间模型的聚类算法都没有很好地解决文本数据所特有的两个自然语言问题:近义词和多义词。所有这些问题都极大干扰了文本聚类算法的效率和准确性,使文本聚类的性能下降。尽管人们提出通过向量空间权重调整和降维来解决上述问题,但是这些方法都有自身的缺点。向量空间权重调整法实际上并没有解决以上问题,它只能非常有限地提高文本聚类的性能。降维法虽然解决了高维稀疏问题,但是降维的代价一般都非常大。另外,现有的文本聚类算法大多没有给出聚类描述的方法。为了避免上述问题的产生,本人采用了一种新的思路,即采用语义相似度作为文本间相似度的度量。为了完善这一思想,本文对文本表示,语义相似度计算以及聚类算法作了深入讨论。提出了一种更利于语义相似度计算的概念列表文本表示法;结合Quillian的联合概念距离计算的方法,提出了文本间语义相似度的计算方法;最后提出了一种基于语义相似度的文本聚类算法—TCUSS算法。TCUSS算法利用语义相似度作为文本间相似度的度量,不仅解决了多义词和近义词的问题,而且不会产生高维稀疏的问题。TCUSS算法以图为基础进行聚类分析,避免了算法对聚簇形状的限制。经实验证明,TCUSS算法比以往的文本聚类算法具有更高的分类正确率。
其他文献
目的观察脐疗恢复腹部术后肠道功能的效果。方法将80例硬膜外麻醉下腹部手术患者随机分组,分别选择脐疗和自然恢复排气。结果脐疗组肠鸣音恢复时间平均18.5h,肛门排气时间平
目的探讨口服乳癖舒胶囊配合散结乳癖贴外敷治疗乳腺增生病的效果。方法100例患者口服乳癖舒胶囊,每日3次,每次5粒;乳房内有肿块者外敷散结乳癖贴。21d为1个疗程,治疗2~3个疗
目的观察丹栀逍遥散对2型糖尿病患者胰岛素抵抗(IR)的影响。方法将46例2型糖尿病患者随机分为2组:治疗组给予丹栀逍遥散联合基础降糖治疗,对照组给予单纯降糖治疗,观察2组治
目的研究心理干预对老年冠心病伴焦虑抑郁的影响。方法将103例老年冠心病伴焦虑抑郁的住院患者随机分为2组,对照组予单纯药物治疗,心理干预组予心理治疗结合药物治疗。2组在
本文详细的论述了导弹发射井的作用,以及其发生,发展和衰落的过程。
成本是衡量企业竞争能力的一个关键指标,降低成本是当今企业普遍关注的问题。信息反馈不及时、应变能力差、产品和原材料积压等等问题给许多传统制造型企业的成本控制工作带
当前,我国大量已建成通车的公路进入维修养护期,急需研究推广经济、有效、便于操作的预防性养护方法。改性乳化沥青,微表处技术是主要的预防性养护手段,是进行路面快速维修的有效
内部审计因经济发展的需要而产生,因此它必须适应经济发展所带来的变化,不断地满足经济发展对其提出的新的要求。在这个过程中,内部审计的质量问题就显得十分重要,因为它是内部审
由于工业化梯度转移,欠发达地区农地征用压力越来越大,失地农民的数量也不断增加。同时因为政府财政困难等因素的制约,欠发达地区失地农民的社会保障一直处于缺位状态,他们成为了
小麦拔节期进行了不同除草剂防除田间阔叶杂草的筛选试验。结果表明,58g/L双氟磺草胺+唑嘧磺草胺SC 204 mL/hm2对麦田阔叶杂草的防除效果最好,58 g/L双氟磺草胺+唑嘧磺草胺SC