【摘 要】
:
目前,跨文本集的话题发现模型(cross-collection LDA,ccLDA)只适用于各个数据源话题相似度很高的场景,而且其全局话题和每个数据源的局部话题会强制对齐,存在词语稀疏的问题
【机 构】
:
四川大学网络空间安全学院,四川大学计算机学院,四川大学网络空间安全研究院
【基金项目】
:
国家科技支撑计划资助项目(2012BAH18B05);国家自然科学基金资助项目(61272447);四川省科技厅计划资助项目(16ZHSF0483)
论文部分内容阅读
目前,跨文本集的话题发现模型(cross-collection LDA,ccLDA)只适用于各个数据源话题相似度很高的场景,而且其全局话题和每个数据源的局部话题会强制对齐,存在词语稀疏的问题。针对ccLDA模型中的不足,提出了改进的跨文本集话题发现模型(improved ccLDA,IccLDA)。该模型在采样时先判断词语属于全局话题还是局部话题,再分别进行采样,避免了ccLDA模型中全局话题和局部话题必须对齐的缺点,进而降低了词语在全局话题和局部话题的分散程度,使该模型可以适用于多数据源的场景。在公开数据集上进行了多数据源文本集的话题发现实验,并进行了话题比较性分析。实验结果表明,在设置不同的话题数时,IccLDA模型的困惑度值均低于LDA模型和ccLDA模型,表明IccLDA模型具有更优的建模能力。最后,在真实数据集上开展了进一步实验验证,证明了本文提出的改进模型不仅建模能力优于原始模型,还可以有效地发现各个数据源讨论的公共话题和每个数据源讨论的局部话题,更适用于多数据源场景的文本话题发现。
其他文献
鄂尔多斯盆地是中国天然气勘探最有潜力的盆地之一,鄂北地区是目前上古生界天然气气藏分布的主要地区。针对上古生界天然气气藏具有低孔、低渗、低丰度、大面积分布、非均质
由于各省份经济发展水平不同以及自身资源禀赋存在差异,使得环境承载力水平在空间上具有差异性,企业更愿意布局在环境承载力高的地区。研究环境承载力与产业转移之间的关系,
我国财政部曾于2012年1月1日联合卫生部共同修订并对外下发了《医院会计制度》(以下简称“新制度”)。在新制度中,对医院的成本管理进行了优化与改革。这既是基于成本效益原
目的探讨对在重症监护室接受呼吸机治疗的患者应用综合护理干预模式的临床效果。方法选择我院收治的在重症监护室接受呼吸机治疗的患者84例,随机分为对照组和观察组,平均每组
笔者对ABS污水提升装置的实际运用中的优缺点情况进行了分析,并对使用中出现的问题提出针对性的措施。
在国家和各地方有关政策的有力支持下,近年来,我国出口企业参加海外展览,利用参展扩大对外交流的积极性越来越高,无论是在欧美发达国家,还是在发展中国家的展览,都能看到大批