【摘 要】
:
随着互联网的不断发展和移动互联网的出现,电脑和移动通讯设备日益普及,微信、微博等各类应用也大量涌现,人们接触并产生了大量的短文本信息。这些文本信息虽然内容较少,但是
论文部分内容阅读
随着互联网的不断发展和移动互联网的出现,电脑和移动通讯设备日益普及,微信、微博等各类应用也大量涌现,人们接触并产生了大量的短文本信息。这些文本信息虽然内容较少,但是却覆盖了政治、经济、娱乐、教育等各个领域,对这些信息进行有效分析和管理具有重要的参考和实用价值。文本聚类是对信息进行分析和管理的重要技术支撑,所谓文本聚类就是根据文档之间的相似度将文档数据集分成若干个簇或类,使同一簇或类的文档间相似度较大,不同簇或类的文档间相似度较小。其中文本聚类主要包含两个方面的内容:文本相似度计算和聚类算法。在本文中,首先对文本聚类进行了详细的描述,然后基于知网对文本相似度计算方法进行了改进,最后将根据改进方法得到的文本相似度结果应用到谱聚类算法中,同时对谱聚类算法进行了进一步改进,使最终的聚类效果更加准确。针对文本相似度计算,本文基于知网已有的文本相似度计算方法,在计算义原相似度时加入了义原节点区域密度因素;在计算词语相似度时充分考虑第一独立义原、其他独立义原和跟随义原的关系,并提出了动态词语相似度计算方法,同时动态化了各义原部分的权重分配;在计算文本相似度时根据短文本的文本特性,简化了文本相似度计算过程。同时在将根据改进的文本相似度计算方法得到的结果应用到谱聚类算法时,本文针对谱聚类的不足也提出了改进方法。为了得到更加精确的数据集相似度矩阵,本文引入数据集密度因素来构造新的相似度矩阵;针对谱聚类处理海量数据的短板,本文将数据集进行分块聚类,降低了谱聚类的计算复杂度;同时对于分块聚类导致的模糊隶属数据,本文对这些数据进行重新划分,提高了聚类准确度。本文最后对提出的改进进行了实验对比和分析,结果表明,本文针对短文本聚类两个方面的改进具有较好的效果。
其他文献
目的探讨优质护理服务对腹腔镜手术卵巢肿瘤患者的影响。方法根据有无开展优质护理服务将选取的120例腹腔镜手术卵巢肿瘤患者分为两组,对照组仅进行一般妇科常规护理,观察组给
随着社会经济不断发展,为了在市场竞争中取得优势地位,公司合并现象日益增多,而在此过程中处于弱势地位的小股东的利益也受到了巨大的影响。在市场经济的大环境下,完善立法和
针对新兴产业发展人才培训发展需要,日本政府制定了"实践能力提升战略",其中明确提出了"职业段位"制度。该制度共分为"七个等级"能力评价,联合行业、企业以及相关教育机构进
<正>【设计思想】本文选自弗罗姆的哲学随笔《爱的艺术》,带有较强的理论性,而且又是译文,学生阅读有一定障碍,因此本文的教学应立足于读懂。而要达到这一目标,笔者以为应充
<正>人教社选修课《中国古代诗歌散文欣赏》属于高中选修课程中心"诗歌与散文"系列。从语文课程目标看,这一系列的目标有两个显著特点:一是通过文学作品的阅读鉴赏来培养学生
目的:观察并比较不同术式白内障术后的早期,中期屈光状态的变化,探讨白内障术后屈光状态的变化规律及屈光稳定时间,为临床上更好地保障患者术后获得良好视觉质量提供一定的参
<正>【设计思想】《枣核》是苏教版初中八年级上册第二单元"爱国情怀"中的第一篇课文。作者写的是自己的"旧时同窗"——一个远在大洋彼岸的风烛残年的老人,尽管"家庭和事业都
目前,建筑行业面临着从传统建筑向新型建筑的转变,尤其是十八大以来,建筑行业进一步加快了转变发展的步伐,开始强调建筑行业走绿色、智能、精益和集约的可持续发展之路,这就
2005年以来,国际国内经济形势和环境发生了巨大的变化。国际上,美元贬值、全球性金融危机、全球经济失衡、欧债危机、全球性通货膨胀、国际大宗商品价格快速上涨等经济现象,
最近十年,温室气体的过量排放导致全球气候变暖日益加剧,海运温室气体的排放逐渐引起广泛关注并成为国际气候谈判的新焦点。以欧盟为首的世界大国开始引入监控、核查和报告航