融合细粒度词特征的老挝语词性标注研究

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户:yongz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前流行的词性标注方法严重依赖语料规模及人工提取特征的质量;然而,老挝语资源稀缺,语料及特征选取面临很大挑战,且老挝语句子本身存在普遍过长的特点.因此,该文提出一种融合细粒度词特征的老挝语词性标注方法,构建了融合细粒度词特征的Att-BiLSTM-CRF模型.首先,以老挝音素和声调符号作为基本单元来进行老挝细粒度词特征的提取,使模型获取更加丰富的语料信息;然后,将细粒度词特征输入BiLSTM中获取句子级别特征;其次,使用自注意力机制防止老挝句子长远上下文信息丢失;最后,使用CRF提取相邻词性约束关系,从而获取最优词性标签.实验结果表明,在有限语料集下,该方法精确率、召回率和F1值分别为93.70%、93.87%、93.62%.
其他文献
哈希检索具有存储消耗低、查询速度快等优点,被广泛应用于跨模态检索研究,其中基于深度学习的跨模态哈希方法是热点研究问题.大多数深度哈希方法通常在多模态数据的特征关联性学习过程中忽略了数据内容的潜在相关性和语义判别性,从而导致哈希码的关联性不强,容易造成原始数据特征和神经网络特征的不兼容问题.针对以上问题,本文提出一种图像-文本深度联合语义哈希算法(Deep Joint-Semantic Hashing,DJSH).该方法使用两个神经网络分别提取图像和文本的细粒度特征,并为每个模态网络设计了哈希层和标签层,分
生成对抗网络(Generative Adversarial Nets)是一种融合了生成学习和对抗学习的无监督学习方法,以零和博弈作为核心思想,其组件通过互相对抗不断地提升模型效果.将GAN模型融入到推荐领域中,可有效缓解数据稀疏性问题,提高推荐效果.本文从模型输入的是隐式反馈信息或显式反馈信息两个方面对基于GAN的个性化推荐模型进行了分析;探讨了基于GAN的个性化推荐研究已取得的相关成果,指出了现有GAN推荐研究在稳定性较差、缺少通用优化方法、模型复杂度较高、缺少通用评测指标等方面的不足;并从提高模型稳定
各种类型的深度神经网络模型已被应用到时序分析中,但基于频域的神经网络与时域的线性模型融合仍然缺乏有效的模型.提出一种基于多级小波分解的深度网络和差分自回归移动平均模型相融合的方法(mWDLNet),时序信号经小波分解到频域,由卷积神经网络和长短期记忆网络提取时序信号的空间和时间维度特征,同时利用差分自回归移动平均模型(ARI-MA)解决神经网络模型的尺度不敏感问题,最后融合两部分的输出结果,提高了预测的准确性.并通过实验验证了mWDLNet模型添加小波分解、卷积模块以及融合线性预测的有效性.将提出的模型应
传统的兴趣点推荐通常忽略了用户签到行为中序列模式的重要性,且无法有效地捕捉用户复杂且动态变化的兴趣偏好.由此,本文提出了一种用户偏好和时间序列的兴趣点推荐模型(User Preference&Time Sequence based POI Recommenda-tion,UPTS-PRec).该模型能够分别对短期偏好和长期偏好建模并融合,以捕捉用户兴趣的变化.对于短期偏好,提出了融合时空上下文信息的长短期记忆网络来学习用户签到行为中复杂的序列转移模式,并通过基于目标的注意力机制进一步精确地提取短期偏好.对
随着互联网上用户移动数据的日益繁荣,用户的移动行为预测也成为了预测研究的热点.近年来,循环神经网络(RNN)技术因其高效性和扩展性在移动预测中得到了广泛的应用.但是,目前大部分网上收集到的用户移动行为数据普遍具有稀疏和异质的特性,特别是当用户出于习惯或隐私考虑可能会拒绝向平台提交活动记录.因此在这些稀疏数据集上基于RNN的预测技术无法有效地学习到足够的用户行为特征,从而影响了模型的预测性能.为了解决该问题,本文提出了一种融合信息网络结构的数据增强行为预测算法.具体来说,首先我们将用户历史行为数据转为信息网
在人机交互动作识别领域中,基于深度学习的动作识别方法比传统的手工特征提取方法准确率更高.为了解决基于深度学习的动作识别方法在实时人机交互的实际应用问题,本文设计并创建了交互动作数据集(IA RGB-D),用于深度学习方法的人体动作识别研究.将IA RGB-D用于多种神经网络的训练和测试,测试结果准确率均在95%以上,验证了数据集的正确性和有效性.为保障对采集动作的实时识别正确率,本文提出了一种基于高效通道注意力的位移图神经网络(ASGFCN),将高效通道注意力模块引入位移图卷积神经网络(Shift-GCN
针对现代大型系统中系统日志的异常检测问题,提出了一种基于自动日志分析的异常检测方法(CSCM).该方法通过在预聚类下结合细化分析与多视角的异常提取过程,来实现系统日志的异常检测.首先,引入信息熵以提取日志信息量;其次,基于Canopy预聚类过程提取子集交叠数据,以缩小计算范围;利用谱聚类进行细化分析,并结合预聚类结果以优化初始化问题;最后,通过关联不同视角下的日志分析,分别提出显性与隐性异常对象的定义,基于稀疏簇质心的分析和异常度的计算,识别出异常日志.实验结果表明,提出的检测方法能够准确有效地识别系统日
应急响应是各类突发事件应急管理的关键.为解决现有医疗领域应急响应决策支持模式存在的精细化程度低、决策服务单一、智能性不足等问题,提出了混合基于案例推理和规则推理的医疗紧急呼救事件应急响应方法.该方法首先将呼救信息构建为呼救知识图谱并将医疗单位和警务单位等信息构建为外部知识图谱集;然后通过实体对齐技术,将呼救知识图谱和外部知识图谱集融合成医疗突发事件知识图谱,以支持事件信息可视化和应急响应方案推理;最后运用基于案例推理(CBR)和基于规则推理(RBR)的混合推理方法,对突发事件知识图谱中隐含关系进行挖掘,推
本文研究医疗简历筛选,提出了基于多级特征表征与级联模型的方法.首先,面向医疗简历教育与工作背景、科研能力、业务能力等多组与多层特征表征问题,提出基于注意力网络的多级特征表征方法,实现特征级、特征组级与特征组组合等多级表征的融合.其次,提出了级联分类模型建模细粒度筛选过程,将现有简单的“通过与不通过”粗略筛选改进为“优秀、良好、中等、一般”的细粒度筛选,更加符合现今医院招聘初审、笔试、面试的多级筛选过程,有利于后续对不同等级人才的考量,也解决了数据不平衡带来的分类错误.最后,在包含13552条简历的数据集上
程序缺陷自动修复是指针对程序中存在的缺陷,自动生成相应的程序补丁,进而使程序恢复正常运行.首先,根据补丁生成方式的不同,将程序缺陷自动修复方法划分为4类,分别为基于搜索的、基于语义的、基于机器学习的以及基于错误报告驱动的程序缺陷自动修复方法.基于搜索的程序缺陷自动修复方法运用启发式算法在搜索空间内通过搜索生成程序补丁;基于语义的程序缺陷自动修复方法将修复约束作为合成程序补丁的规约,最后通过约束求解器生成程序补丁;基于机器学习的程序缺陷自动修复方法使用数据集训练并生成修复模型,通过修复模型生成程序补丁;基于