论文部分内容阅读
语义表示与分析是人工智能领域的基础研究问题。随着互联网数据的爆炸式增长,如何实现高效准确的语义表示,进而从大规模数据中挖掘有价值的语义信息并加以利用,具有十分重要的研究价值。然而,面对日益复杂的海量动态数据计算需求,新的研究挑战也在不断涌现。例如在文本表示领域,由于社交媒体平台的用户生成文本具有语义模糊、新词、非规范表述等特性,如何更有效地挖掘和表示文本的隐含语义内容?在网络表示学习领域,如何将大规模网络中包含的抽象语义信息高效地表示出来? 由于人脑在知识表示与语义分析方面的天然优势,借鉴认知心理学中人脑的记忆激活机制完成语义表示与分析成为一个重要的研究思路。然而目前已有的方法大多需要借助专家经验或已有知识,无法适应大规模、动态化的互联网计算环境。基于以上现状,本论文有针对性地探索了如何更有效地将记忆激活理论应用于语义表示工作,并服务于现实应用。具体来说,本论文将认知心理学中的ACT(Adaptive Control of Thought)记忆激活理论体系引入文本和网络的自动语义表示工作中,分别探索了ACT理论体系中的关联激活理论和扩散激活理论在文本和网络语义表示中的应用价值,提出了相应的文本增强表示方法和网络表示学习方法。并进一步将所提出的方法联合建模,应用于模因爆发预测的实际任务当中。 本论文的主要研究内容与贡献包括: 1)将ACT关联激活理论应用于文本表示,提出了基于关联激活的文本增强表示方法AADE(Associate Activation-Driven Enrichment)。从信息论“熵”的角度,论证了利用现有信息激活隐含语义概念的关键因素,并通过这些因素与ACT关联激活理论中激活长期记忆所需要素的一致性,论证ACT关联激活理论在文本隐含语义表示和分析中的应用原理与价值。在此基础上,提出基于关联激活的文本增强表示方法AADE,包括一个总体框架以及三个具体的AADE模型。通过在长、短文本,中、英文数据集上进行的文本极性分析、主题建模、文本检索、分类、聚类等一系列基础性文本分析实验,证明了AADE方法能够在线性时间内显著提升多个文本分析任务的效果。对比当前的主流文本表示方法,AADE能够有效挖掘文本中的隐含语义信息并进行显式化表示,兼具有效性、可解释性、高效性与兼容性。 2)将ACT扩散激活理论应用于网络表示学习,提出了基于扩散激活的网络表示学习方法Spread-gram。首先论证了ACT扩散激活公式用于网络表示学习的可行性,同时提出Spread-gram模型的目标函数。然后根据ACT扩散激活理论中的节点传播模式实现网络的扩散激活式节点搜索与向量更新策略。在此基础上,根据网络的不同类型,分别提出针对同质网络和异质网络的Spread-gram模型。在同质网络和异质网络上完成的节点分布可视化、节点分类、链接预测等一系列实验表明,Spread-gram训练获得的网络节点向量能够有效地表示网络中的语义信息,在多个任务中取得显著效果提升,且仅需很少的迭代次数便可以使模型达到收敛。对比已有方法,Spread-gram实现了网络的全局输入,避免了随机游走等方法可能带来的局部输入和输入偏差问题,同时具有模型快速收敛的特性。 3)探索了AADE和Spread-gram方法在信息传播领域的联合应用,提出了模因爆发实时预测方法SNT(Semantic,Network and Time)。该方法以信息传播单元—“模因”作为研究对象,通过观察模因产生初期的传播情况,预测其未来是否会呈现爆发式传播。SNT整合了模因传播过程中的文本语义特征、网络空间特征和时序特征,并对这三个领域特征进行联合建模,实现模因爆发的实时预测。在模因传播的公开数据集以及真实采集数据集上,通过真实场景的实验模拟以及典型案例分析,论证了SNT预测的“实时”、“高精确度”特性。相比已有方法,SNT充分利用了模因传播过程中的语义与时空信息,在对不同类型的模因进行实时爆发预测任务时都能取得较好的效果,且预测有效性不依赖于监测时间,这对于信息传播分析和早期预警具有十分重要的意义。