文本聚类关键技术研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:huojiantong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本聚类是文本挖掘中的一项重要技术,具有重要的应用价值并且被广泛应用于文本挖掘与信息检索等领域。但是,传统的文本聚类算法由于文本表示模型的缺陷而忽略了文本中词之问的语义联系,而目前对于各种通讯信息中不规范的短文本也没有一个很好的高效的聚类算法。本论文主要针对上述两个问题对文本聚类进行的自由研究。   论文首先对文本聚类进行了调查研究,分析了文本聚类的重要性和国内外文本聚类技术的研究现状,接着介绍了一些传统的文本表示方法以及文本聚类算法。在这些工作的基础之上,本文主要做了如下两方面研究工作:   本文针对近些年来大量出现在通讯信息中的不规范短文本,提出了一种快速有效的聚类算法。这些短文本由于具有不规范的语法结构等特点,我们称之为不规范短文本。由于不规范短文本文本短小,数量庞大会造成传统聚类算法难以忍受的时间以及空间花销,本文根据不规范短文本的特点,在原有的凝聚层次算法基础上采取了抽取特定的特征串,并融合了压缩编码以及信息检索的思想,将聚类问题转化为信息检索问题,从而加快了聚类的处理速度。实验表明,该算法对于海量的不规范短文本处理速度是相当可观的。   本论文另一个研究重点是:针对传统聚类忽视了文本中词间关系的问题,提出了一种新的利用文本中词间关系来聚类的聚类算法。该算法使用词激活力WAFs作为文本表示模型,在此基础上,用词亲近度作为文本相似度度量。本论文将基于词间关系的中文文本聚类算法在2010中文人名消歧语料上进行了实验并且取得了良好的结果。
其他文献
随着无线通信技术的高速发展,频谱资源日益变得匮乏,如何高效的利用频谱资源成为重要的研究方向。认知无线电技术可以提高频谱利用率,使用认知无线电技术对频段进行感知,可以发现
为验证10%氨基寡糖素?氟吡菌胺可湿性粉剂对马铃薯晚疫病的防效,特在184团4连进行田间药效试验,以期筛选出该药剂最佳用药剂量,为该农药登记和推广应用提供依据.选用10%氨基寡
星形胶质细胞是脊椎动物中枢系统中的一种大量存在的细胞,占中枢神经系统细胞总量的80%以上。在中枢神经系统中,星形胶质细胞起到了非常重要的作用,其中包括构建血脑屏障,为
水稻籽粒的主要成分是胚乳,胚乳的发育与产量性状密切相关。在胚乳发育早期,有丝分裂的次数越多,产生的管状小泡就会越多,从而有发育成更大胚乳的潜力。Weel激酶是细胞周期的重要调控因子之一,在胚乳发育过程中起重要作用。如果Weel基因过早表达,产生的Weel激酶会抑制细胞周期因子依赖激酶(CDKs)的作用,导致胚乳在发育较早的时候停止细胞分裂而进入核内复制时期,即仅进行连续的S期(遗传物质的复制期)而
在城市环境下,车载自组织网络(Vehicular Ad Hoc Network,VANET)具有拓扑结构复杂、变化快、车辆节点的移动速度较高,且节点运动轨迹受道路形状限制等特点,给VANET路由协议的设计
人类视觉系统具有很强的信息筛选能力。它能够根据当前视觉任务运用注意机制,主动选择有用信息,过滤无关信息。这种注意引导的方式分为自底向上和自顶向下两种。如何将这种机制
近几年,小麦地下害虫(金针虫、蛴螬)在奇台县局部区域发生较为严重,造成缺苗断垄,个别地块毁苗率达20%左右.针对此情况,引进30%噻虫?嘧菌?咪鲜胺FS用于小麦拌种,观察此药剂拌种
射频识别(Radio Frequency Identification)是20世纪80年代兴起的一种非接触式的自动识别技术。它通过无线射频信号自动识别目标对象并获取相关信,其核心技术是通过先进技术手
菊花(Chrysanthemum morifolium Ramat)是菊科(Asteraceae)菊属的多年生草本植物,具有很高的观赏价值和药用价值,在观赏园艺及传统医药领域有着广泛的应用。药用菊花品种繁多,遗传背
洪潮,1964年生,号云门山人,安徽宁国人,文化部中国艺术研究院艺术创作院研究员、专职画家,中国民间组织国际交流促进会理事,文化部青联美术工作委员会委员,北京东方山河画院