论文部分内容阅读
基于变分自编码器的神经主题模型是一种典型的主题模型。由于该模型忽略了文档之间的相似性,可能导致语义相近的文档对应的隐变量之间距离较大。此外,在变分自编码器的训练过程中,还存在忽视隐变量的现象,导致模型不能很好地学习文档的向量表示。针对上述问题,提出孪生神经主题模型及其变种,通过孪生网络对神经主题模型进行扩展,引入了文档之间的相似度信息。网络的子结构采用信息最大化变分自编码器构建主题模型,提高了隐变量与文档的相关性。实验结果表明,该模型在文档检索任务中有较好的表现,并且提取的主题具有良好的解释性。