【摘 要】
:
针对传统聚类算法在处理大规模和高维文本聚类时存在的不足和局限性,提出了新的以LDA(latent dirichlet allocation)模型为基础的聚类方法 。通过LDA主题模型挖掘得到文本之中
【机 构】
:
中国民航大学计算机科学与技术学院,中国民航大学中国民航信息技术科研基地
【基金项目】
:
国家自然科学基金项目(61201414,61301245,U1233113)
论文部分内容阅读
针对传统聚类算法在处理大规模和高维文本聚类时存在的不足和局限性,提出了新的以LDA(latent dirichlet allocation)模型为基础的聚类方法 。通过LDA主题模型挖掘得到文本之中的潜在主题分布以及不同主题内的词语分布,分别计算文本在“文本-主题”特征空间和“主题-词语”特征空间的相似度,然后对两者线性加权,获得最终的文本相似度。利用经典的K-Means算法,在中英文语料库上进行的实验表明,与单纯地利用VSM结合K-Means相比,具有较好的聚类效果。
其他文献
以燃油成本最小为目标,综合考虑航班的频率限制、机型的市场需要、航路时机型的限制以及机队飞机的可用时间限制等因素,确定航空公司运营的各条航线与现有机队中各机型的最优
当代中国法律权威性不高,公民对法律缺乏神圣体验。这与历史和文化因素有着紧密的联系,但法律仪式的不受重视也对公民法律神圣性体验的生成和巩固,对公民去律权威感的形成具
研究生培养模式,是在实施研究生教育的过程中,为实现培养目标、达到相应的规格质量,对培养对象所采用的各种特定培养方式的总和。研究生培养模式的形成发展与各国的文化传统、办
<正> 我们以前的实验证实,小肠匀浆内含有能提高受照射小鼠肠腺存活率的因子。对小鼠小肠匀浆的生化分离和鉴定证实,此因子为核酸类物质(DNA,RNA)(曾桂英,陈镔鍑等,待发表)。
电信诈骗有多猖獗?连明星也被骗中招!日前有网友爆料称,内地知名女艺人汤唯在上海拍戏时接到诈骗电话,并被骗走了21万余元。该传闻随后被汤唯的经纪人证实,据悉,汤唯事后已经向上海
运用粗糙集理论构造出规则集并应用于民航货运增速预测,从整个行业层面确定民航货运量发展趋向,可为民航货运资源配置提供重要参考依据。借助基于粗糙集理论的民航货运量预测
Hadoop是一个由Apache基金会开发的开源的云计算基础框架,主要由Hadoop分布式文件系统(HDFS,Hadoop distributed filesystem)和Map/Reduce分布式计算模型组成。其中,HDFS为海量数
高师院校在教师教育中的作用取决于高师院校教师的素质。随着新课改的深入发展,校本教研活动中的大学教师与中小学教师伙伴合作研究备受关注。实践说明,大学与中小学合作是一条
基于协同论基本原理,分析了电力市场复杂系统运营效率评价体系机理,建立了相应的分析框架。运用哈肯模型构建了反映市场运行状态的序参量演化方程,结合东北电力市场的运营数
一般说来,知行观属于功夫修养的范围,因而人们往往将其作为本体思想的一种落实与表现来把握。这当然有一定的道理。但根据儒家传统体与用、本体与功夫之间的互渗互证关系,不