【摘 要】
:
互联网的发展弱化了人类个体之间通信交流的距离感,同时人与人之间的交流方式也逐渐变得复杂。语言文字作为人类传达信息的重要载体,随着互联网的发展其体量迅速增长,所承载的内容也呈现出丰富繁多的特点。主题模型作为自然语言处理中一项基础性的研究工作,具有数据降维、主题抽取的特性。为舆情分析,情感检测,信息索引等领域提供了重要的研究价值。主题模型发展之初是为了分析文本的语义信息。随着人类生活方式的转变,短文本
论文部分内容阅读
互联网的发展弱化了人类个体之间通信交流的距离感,同时人与人之间的交流方式也逐渐变得复杂。语言文字作为人类传达信息的重要载体,随着互联网的发展其体量迅速增长,所承载的内容也呈现出丰富繁多的特点。主题模型作为自然语言处理中一项基础性的研究工作,具有数据降维、主题抽取的特性。为舆情分析,情感检测,信息索引等领域提供了重要的研究价值。主题模型发展之初是为了分析文本的语义信息。随着人类生活方式的转变,短文本如今被大量的存储在互联网中。其蕴含的商业价值和政治作用难以估量。短文本和长文本相比,由于数据特性的原因短文本中词的共现信息较少,所以将主题模型直接应用在短文本中会遇到数据稀疏的问题。本文研究分析了目前主题模型在短文本中应用遇到的问题,然后在词之间的语义关系提取上和主题模型的建模方式上提出创新。主要工作如下:1.针对目前短文本中难以提取语义信息的问题,本文提出了一种基于句法结构信息的词关系强度计算方法。首先将由句法结构信息构建的句法结构信息树按照粒度划分的思想划分其中包含的关系结构,分析出不同的关系结构和语义表达之间的联系关系。随后分析关系结构和语义之间的关系,最后提出具体的计算方法计算词关系之间的语义联系。实验结果表明该方法能够很好的凸显出词关系对语义的表达作用。2.为了应对主题模型遇到的建模假设问题和额外选用辅助数据库带来的主题不一致的问题,本文提出了一种融入句法结构信息的主题模型。该模型假设词之间的关联关系能够影响文本的生成。基于该假设主题模型能够在主题抽取时,根据词之间关系的强弱赋予其不同的采样概率。实验结果表明本文提出的模型在主题分离度和主题的连贯性上都有明显的提升。
其他文献
目前生物医学文本数据增长迅速,但其中的有效信息难以提取,生物医学文本命名实体识别(Named Entity Recognition,NER)的目的就是快速有效地从文本中提取相关实体名称。作为自然语言处理的一个重要分支,同时也是关系提取和构建知识图谱的关键子任务,命名实体识别技术具有重要的意义和价值。当前一些主流先进的命名实体识别方法在普通文本中已经能取得较好的识别性能,例如GPT(Generati
在如今这样一个大数据时代,仅依靠人工方式对文本数据进行处理是效率低下、成本高昂的。随着计算机硬件与计算能力的蓬勃发展,使用机器通过文本分类算法来处理文本数据逐渐成为一类主流方法,受到了各行各业广泛地关注与应用。文本分类是自然语言处理领域中的一个热门的基础任务,其目的是为各式各样的文档指定预定义的类别标签。现有的文本分类算法面临的主要挑战,包括但不限于以下三个方面:1)如何提高算法模型对文本特征的提
偏标记学习是一种弱监督学习框架,它试图从样本的多个候选标签中选择唯一正确的标签。在偏标记学习框架中,一个样本对应一个候选标记集合,且只有一个是真实标记,在这样的训练样本下进行学习无法直接应用传统的监督学习算法,学者们在长期的研究中发现了非消歧、平均消歧和辨识消歧三种策略来优化算法使其适应于偏标记学习框架。其中,消歧的策略被广泛认为是实现偏标记学习的有效途径,但是这类策略存在两大问题:首先,研究人员
全面贯彻新发展理念以来,我国户外休闲运动产业提速发展,尤其是水上休闲运动产业规范化后,水上休闲运动成为国民经济发展的新增长点,水上国民休闲运动中心作为发展水上运动建设“五方三点”的重要焦点,有着重要的产业集聚作用。本文通过系统梳理我国水上国民休闲运动中心发展脉络,探究其创新,并通过以成都市天府新区水上国民休闲运动中心为切入点,分析其优势劣势,总结经验,对未来水上国民休闲运动中心发展提出建议,达到引
移动边缘计算通过在云中心与终端设备之间建立边缘服务器完成各种任务数据的计算,为用户提供了更快速的服务响应。但由于移动边缘计算在应用层上的相对开放性,任务在卸载处理时可能被第三方攻击者监视并获取隐私信息。此外,用户设备电池在容量方面也有诸多限制,对能耗异常敏感。因此,综合考虑移动边缘计算中用户设备的隐私与能耗,设计有效的任务卸载决策以提高服务质量和用户体验,是一个重要的课题。本文对移动边缘计算中任务
目的 探讨空腹C肽(FC-P)、餐后2小时C肽(P2hC-P)及胰岛自身抗体在糖尿病分型诊断中的价值。方法分析148例1型糖尿病(T1DM)患者与353例2型糖尿病(T2DM)患者的基本特征、实验室检查结果(包括C肽水平、胰岛自身抗体)存在的差异。根据病程将各型患者又分别分为3个亚组(0~年组、2~年组、5~年组),比较各亚组患者入院时及胰岛素强化治疗后的FC-P、P2hC-P水平差异。绘制ROC