【摘 要】
:
针对单一词向量中存在的一词多义和一义多词的问题,以柬语为例提出了一种基于HDP主题模型的主题词向量的构造方法。在单一词向量基础上融入了主题信息,首先通过HDP主题模型得
【机 构】
:
昆明理工大学信息工程与自动化学院,昆明理工大学云南省人工智能重点实验室,云南南天电子信息产业股份有限公司,云南民族大学东南亚南亚语言文化学院,上海师范大学语言研究所
【基金项目】
:
国家自然科学基金(61462055,61562049)
论文部分内容阅读
针对单一词向量中存在的一词多义和一义多词的问题,以柬语为例提出了一种基于HDP主题模型的主题词向量的构造方法。在单一词向量基础上融入了主题信息,首先通过HDP主题模型得到单词主题标签,然后将其视为伪单词与单词一起输入Skip-Gram模型,同时训练出主题向量和词向量,最后将文本主题信息的主题向量与单词训练后得到的词向量进行级联,获得文本中每个词的主题词向量。与未融入主题信息的词向量模型相比,该方法在单词相似度和文本分类方面均取得了更好的效果,获取的主题词向量具有更多的语义信息。
其他文献
自控飞艇正在得到日益广泛的应用,地面指控系统是自控飞艇控制系统的重要组成部分,本文就其所涉及的关键问题和开发技术进行研究。论文分析并论述了满足无人飞艇应用需求的地
语音转换在教育、娱乐、医疗等各个领域都有广泛的应用,为了得到高质量的转换语音,提出了基于多谱特征生成对抗网络的语音转换算法。利用生成对抗网络对由谱特征参数生成的声
11月20日,中国银行金融科技中心和林格尔园区奠基仪式暨中国“金融云谷”启动仪式在内蒙古和林格尔新区举行。自治区政府副主席黄志强,中国银行行长王江、首席信息官刘秋万,
随着互联网技术的发展,互联网服务器集群的负载能力正在面临着前所未有的挑战,实现合理的负载均衡策略尤为重要。为了使负载均衡达到最佳的效率,可以使用一致性哈希算法来对