【摘 要】
:
随着信息技术及互联网的发展,人类所面对的网络信息迅速膨胀,因此如何从杂乱无章的海量文本信息中快速刷选出目标信息,一直是自然语言处理领域的研究热点。同时文本聚类是最
论文部分内容阅读
随着信息技术及互联网的发展,人类所面对的网络信息迅速膨胀,因此如何从杂乱无章的海量文本信息中快速刷选出目标信息,一直是自然语言处理领域的研究热点。同时文本聚类是最基础的自然语言处理技术,目前文本聚类的困难主要在于两点:第一,如何提高聚类质量;第二,如何描述聚类结果。本文综合思考了以上两点,提出了基于LDA主题模型的文本聚类方法。本文主要工作包括以下三个方面:第一,详细分析对比了国内外文本聚类领域的关键技术,如文本建模、特征提取、文本聚类方法、统计主题模型及聚簇主题识别方法等,并分别总结了各关键技术的优缺点及目前的研究进展。第二,将LDA主题模型引入文本聚类领域,从统计学角度利用生成的文本-潜在主题模型结合传统的TF IDF词空间,将潜在主题特征知识融入词空间,深层挖掘出文本内部语义知识,提高文本聚类质量。第三,利用LDA生成的潜在主题-特征词模型及特征词集,结合文本概率分布情况,提出了一种基于LDA模型的聚簇主题识别方法,加强聚类结果的可视化及易理解性。中英文语料上的实验结果对比分析显示,本文方法优于传统的词空间聚类算法,聚类质量均提高了4%到10%不等,且结果聚簇的主题识别较为准确,从而验证了基于LDA模型的文本聚类方法是合理有效的。
其他文献
中小企业在世界各国的经济发展中都占有重要的地位,而中小企业长期稳定发展的关键在于能否解决企业的融资问题。随着改革开放30年来市场经济的不断发展,我国的中小企业虽然在促
山东能源新汶矿业集团有限责任公司(下文简称新矿集团)建立于1956年,是一家以国有资产为主体、多种所有制并存,以煤炭为主、多种产业共同发展的大型能源型企业集团。新矿集团
新中国成立以来,特别是改革开放以来,我国社会养老保障事业蓬勃发展,取得了一系列举世瞩目的成就,在制度范围、覆盖人群、待遇水平上,逐渐呈现“从无到有、从少到多、从低到
海外投资即对外投资,相较国内投资而言具有更大的风险,这些风险主要包括自然灾害、商业风险、政治风险等。对于高风险的海外投资来说,有力的海外投资法律保护体系是保障其存
现有数控机床(CNC)运动链构建方法多只适用于二、三轴等简单数控机床,且缺乏高效的理论分析基础和工具,针对此问题,文中选用几何分析方法,通过分析刀具在工件表面上的运动轨
当今国与国之间竞争的一个显著特点是文化的地位和作用越来越重要,许多国家把提高文化软实力作为外交战略的重要环节。改革开放以来,中国经济得到了迅猛的发展,综合国力和国际
伴随社会进步和我国经济飞速发展,学生的思想在多元化的文化环境下发生着很大的转变,无论是学生还是社会都对学校教学提出了更高的要求,原有的陈旧教学模式已经不能适应社会
中国高校大学生志愿服务相对于整个社会来说,是属于起步较早的志愿服务主体,是中国青年志愿者队伍中最活跃、最积极、最集中、最有影响力的一个群体,这个队伍的迅速发展壮大不是
马林诺夫基斯两次基里维纳岛民族志实践与麦鲁岛民族志实践,存在四个关键不同:1、前者带着问题意识和理论准备进入田野,就像科学家带着理论假设进入实验室一样,以增强研究的
"多元文化"概念因众口难调而失于空泛,"多文化"概念则更为执中,承认多文化"共在"时的某种失序。在人人皆为多文化交流"结点"的时代,不同文化共在的"结构场"复杂而又多变,贯穿