【摘 要】
:
随着社交平台的迅速崛起,各种短文本信息丰富着人们的生活,如微博、知乎和推特等,用户常以文字为主体分享自己感兴趣的事物。因此学者们可以从中发现用户感兴趣的主题信息,并将它们应用于实际项目中。目前大多数主题模型都是针对长文本数据,而在短文本的应用中,由于文本稀疏问题导致实验效果并不理想。为了克服短文本数据集的稀疏性问题,双词主题模型(Biterm Topic Model,BTM)将文本中提取出的共现词
论文部分内容阅读
随着社交平台的迅速崛起,各种短文本信息丰富着人们的生活,如微博、知乎和推特等,用户常以文字为主体分享自己感兴趣的事物。因此学者们可以从中发现用户感兴趣的主题信息,并将它们应用于实际项目中。目前大多数主题模型都是针对长文本数据,而在短文本的应用中,由于文本稀疏问题导致实验效果并不理想。为了克服短文本数据集的稀疏性问题,双词主题模型(Biterm Topic Model,BTM)将文本中提取出的共现词对作为建模对象,以此来解决短文本篇幅短带来的稀疏问题。本文对BTM模型挖掘短文本的主题信息和社交用户主题分布推算技术中存在的不足提出了改进措施,使得提取的短文本主题信息和社交用户主题信息质量更高且更有效,主要工作如下:1.针对BTM主题模型中,滑动窗口获取词对的方式存在忽略词对间上下文语义和语序关联的问题。本文在BTM模型的基础之上,提出了一种基于语义依存分析的词对获取方法替代滑动窗口方法。该方法为了获取更具语义关联的词对,首先分析文本的依存关系和词间的语法关系,再将具有强语法关联的词组成词对。为了进一步解决文本稀疏问题,在依存分析获取词对的基础上提出通过词相似和词关联的方法来扩展数据集的词对数量,使得模型在解决稀疏问题的同时增强文本主题倾向。2.针对传统的社交平台用户主题特征计算方法中,合并同一用户所有发文后进行主题分析而忽略了发文间可能不存在语义关联的问题。本文提出了一种基于热度的社交用户主题特征计算方法,首先对所有发文单独进行主题分析,再使用热度矩阵计算每条发文的热度值作为每条发文主题信息的权重值,最后通过加权合并得到用户的主题分布。该方法不仅能更深入的获取每条发文的主题信息,还在一定程度上揭示每条发文主题信息对于用户主题信息的重要程度。最后,通过社交平台用户收入分析实验可以得出,基于热度的用户主题特征计算方法的效果更佳。
其他文献
互联网的发展弱化了人类个体之间通信交流的距离感,同时人与人之间的交流方式也逐渐变得复杂。语言文字作为人类传达信息的重要载体,随着互联网的发展其体量迅速增长,所承载的内容也呈现出丰富繁多的特点。主题模型作为自然语言处理中一项基础性的研究工作,具有数据降维、主题抽取的特性。为舆情分析,情感检测,信息索引等领域提供了重要的研究价值。主题模型发展之初是为了分析文本的语义信息。随着人类生活方式的转变,短文本
为提升物流配送效率,降低配送成本,提出一种改进麻雀搜索算法M-SSA求解物流配送中心选址问题。在基本麻雀搜索算法SSA中,设计均匀化Logistic映射机制提升初始种群的均匀性和随机性;利用正余弦优化和惯性权重机制改进发现者位置更新,提升全局搜索能力;引入柯西混沌变异机制增强种群多样性,避免局部最优解。利用M-SSA算法求解物流配送中心选址问题。实验结果表明,在解决配送中心选址问题上,M-SSA算
<正>十年禁渔的实施,对滇池土著珍稀鱼类恢复和生物多样性保护发挥了重要作用,但由于滇池高原湖泊的特殊性,鱼类群落结构单一化和个体小型化等问题依然凸显。本文在十年禁渔背景下,就滇池鱼类资源结构优化、生物多样性保护和渔业生态服务功能提升等方面提出意见和建议,以期为后续滇池生态修复工作提供参考。
提出两阶段组合优化算法的农产品物流配送中心选址算法。以农产品物流配送中心选址假设为基础,采用基于聚集度的启发式算法划分客户类别,确定备选配送中心的配送界限;以配送服务的可靠性最大化为目标,以配送总成本为约束条件,建立农产品物流配送中心选址的优化模型,使用免疫算法求解优化模型。实验结果表明,算法可有效获取最佳农产品物流配送中心选址,所选取配送中心到各配送点的运输费用较低,到达各个配送点的运输距离均未
医学图像在临床诊断中起着重要作用,通过对病人使用不同的设备扫描采集,可以得到MR、CT和PET等模态的图像。医生可以使用这些医学图像对病人的病情做出判断并实施确切的治疗手段。计算机辅助诊断系统旨在利用计算机设备对医学图像做出精准解释以辅助医生进行医疗诊断,辅助医疗领域的一个重点研究方向是医学图像配准。医学图像配准是将不同时刻或不同设备拍摄的同一部位的两张图像进行对齐。可变形医学图像配准要求两张图像
饮酒会对大脑产生影响,严重情况下会危及生命。在大脑不同生理功能的表达中,工作记忆尤其容易受到酒精的影响。酒精对大脑生理功能的影响需要探讨,当前研究尤其缺少专门针对饮酒前后工作记忆变化的相关研究内容。因此,本文提出基于脑电图(Electroencephalogram,EEG)分析清醒与醉酒状态下的工作记忆的差异,即通过EEG特征分析,研究酒精对工作记忆负荷水平变化的影响。首先,构建小样本的醉酒EEG
互联网技术是一把“双刃剑”,为人民群众工作、申习和生活带来便利的同时,也为犯罪中子论供了新的犯罪领域和手段。网络犯罪校以网络为犯罪对象的、以网络作为工具的或发生在网络空间的犯罪,可细中为新技术犯罪与传统犯罪网络化两种中型。电信网络诈骗犯罪作为传统诈骗犯罪的网络化具有虚拟性、跨地域性、多层级链条性、隐蔽性和非接触性特点。这种利用网络空间发展起来的诈骗犯罪,将传统诈骗属性同网络技术相结合形成了新的犯罪
蓝莓僵果病是一种由真菌导致的病害,常常发生在蓝莓生长过程中,严重时,会导致蓝莓产量大幅下降,造成重大经济损失。蓝莓感染僵果病主要分为两个阶段:原发性感染阶段和继发性感染阶段,掌握蓝莓感染僵果病的具体阶段有助于采取适当的措施,减少僵果病对蓝莓的损害,降低经济损失。尽管深度卷积神经网络在农业疾病检测领域表现出了很好的效果,但由于需要大量的参数和计算,它在移动和嵌入式设备上的应用存在问题,而且,蓝莓僵果
随着人工智能和大数据的发展,基于深度神经网络的文本分类技术在现实中的应用越来越广泛,比如情感分析、新闻分类、垃圾邮件分类等。这些文本分类模型在遇到对抗攻击时,其性能会显著下降并引起了人们的关注和研究。通用对抗攻击只需向任意输入添加一个固定的扰动序列,就可以成功地愚弄文本分类模型,而且可以在短时间内对其发起大规模攻击。现有的通用对抗攻击会无差别地攻击所有类别的文本样本,这很容易引起防御系统的注意,同