【摘 要】
:
随着中国国际影响力的日益提高和汉语国际地位的提升,使得当今世界各国各民族对汉语和中国文化的了解和掌握的需求越来越迫切.众所周知,汉语是世界上一门难以学习的语言之一,由于它的语法规则复杂多变,导致中文的语法纠错在自然语言处理领域中一直极具有挑战性.本文对语法错误的纠正方法进行综述性研究与分析,介绍语法纠错的现状;对比现有的语法错误纠正方法进行分类分析,分析每类语法错误纠正方法的优缺点;以及对未来语法错误纠正的方法提出三点建议.
【机 构】
:
青海师范大学计算机学院,西宁 810000
论文部分内容阅读
随着中国国际影响力的日益提高和汉语国际地位的提升,使得当今世界各国各民族对汉语和中国文化的了解和掌握的需求越来越迫切.众所周知,汉语是世界上一门难以学习的语言之一,由于它的语法规则复杂多变,导致中文的语法纠错在自然语言处理领域中一直极具有挑战性.本文对语法错误的纠正方法进行综述性研究与分析,介绍语法纠错的现状;对比现有的语法错误纠正方法进行分类分析,分析每类语法错误纠正方法的优缺点;以及对未来语法错误纠正的方法提出三点建议.
其他文献
基于大规模文本语料库的预先训练模型能够学习通用语义表征,再根据给定数据集进行微调可以显著提升预先训练模型在各类自然语言处理任务的性能.在这种“预先训练模型+微调策略”的模式下,数据特征来源的选择、模型速率的提升、微调策略的设计就显得尤为重要.本文重点介绍强力优化的语义表征模型RoBERTa、基于全词遮蔽的扩展模型RoBERTa-wwm-ext和基于知识蒸馏的压缩模型RBT3等预先训练模型,以及判别微调DF和倾斜的三角学习率STLR等微调策略.在公众留言分类实验中表明,相对仅选取“主题”作为数据特征来源,选
针对粒子群算法求解问题时易早熟收敛,精度不高等问题,提出了具备预判能力和向最小距离学习的粒子群算法(MDPSO).该算法中粒子的社会学习部分是从各个粒子的个体极值中提取有效信息进行学习,首先粒子对所有粒子的个体极值(包括自己)的信息进行分析,确保下一次寻优过程中向正确的方向飞行,即预判能力,防止了粒子向错误方向飞行而浪费太多时间;其次,粒子从预判的方向上选取一个最小距离来指导粒子社会部分的学习,使粒子较快的收敛到下一代较好食物的位置.最后,结合两策略的特点,可以有效的防止算法早熟收敛并提高其精度.MDPS
网络用户数量随着大数据时代的发展逐年增加,我国网络普及率高达60%,网民数量有8.29亿.各项资源呈现高度的信息化,伴随而来的问题是用户信息泄露,信息资源被盗用,网络安全问题日益严重等.针对网上的恶意代码,入侵检测成为一项新的热点,由于老式的检测技术依赖于大量的人力,并且时效性和对未知访问技术的防御较弱,因此在新式的检测系统中会采用更加高效的算法,例如支持向量机(SVM),将SVM引入到检测系统形成一个自动化的系统,用公开权威的数据集KDD99对其进行仿真实验,交叉验证进行模型调参,寻找能得到最优结果的最
医疗分类问题作为数据挖掘在医学上的重要问题分支,旨在通过人工智能算法构建出分类决策模型以辅助临床诊断.为改善医疗分类模型的泛化能力,利用受限玻尔兹曼机有效的特征提取性能,提出一种改进回归权的深度置信网络结构并将其应用于医疗数据分类问题研究中.在三个UCI医疗数据集上分别基于改进网络构建出决策模型,并与原始网络结构进行对比.仿真结果表明,基于改进深度置信网络构建的决策模型取得了较为优异的性能.
投资者在选择投资策略时一般会权衡收益与风险的利弊,综合各方面考虑,得出最合理的投资方案.本文研究了一种层次分析-熵权法模型用于投资组合构造.通过构建所选取部分股的层次分析模型,对数据进行定性定量赋权,得到投资比例.在此基础上结合熵权法,进一步权衡收益和风险,更加客观对投资权重进行修正.并用夏普比率对模型进行评估.
在电子政务工程项目的建设中,数据规范是数据整合、共享、交换和应用的基础,也是保障数据质量的必要约束.针对全国公共资源交易数据由地市、省到国家,级联式汇聚整合的模式,以及公共资源交易主管部门数据横向对接汇聚的工程需求,结合业务层面交易的统计、分析和数据共享需求,总结了公共资源交易平台数据规范的结构设计、内容设计和难点所在.在跟踪数据规范推广应用的实际进展基础上,提出后期的修订方向.
传统机器学习模型在网络入侵检测方面存在识别率低等问题,为了进一步提升检测率,主要应用Boosting集成学习算法进行相关的检测和研究,同时通过随机森林法来针对关键特征予以提取,构建多类分类器模型,同时借助KDD99数据来针对试验予以验证.实验结果表明Boosting集成学习算法能够较好的识别攻击类型数据.改进的GDBT,Xgboost相比随机森林效果较好,整体的准确率和召回率相比较优,表现出较高的预测精度.
本文提出了基于微服务架构的重大信息系统迁移上云方案,给出了传统架构到云环境下架构各类组件映射关系和解决方法,通过技术架构转换实现传统信息系统业务迁移到云平台体系,进而实现重要系统的一键部署、弹性伸缩、灰度发布以及故障自愈,通过实践验证了基于微服务改造迁移上云的可行性和可靠性.
随着计算机技术的发展,深度学习技术在众多领域发挥着重要作用。为提高医学图像分割的精度和实时性,采用可分离卷积设计了一种特征图复用结构的编码器-解码器式的图像语义分割网络RUNet。通过多特征融合的方法节约通道数,进而极大的减少参数量,同时增加网络深度提升模型表示特征能力,在EM数据集和LUNA数据集下测试RUnet平均Dice系数分别为0.9692和0.9877,分割效果优于U-net,但是计算量
在一个典型的以太网环境中,一个设备使用UDP协议向另一个设备发送数据时,可能会出现网络丢包的情况.当数据量较大或网络结构比较复杂时,丢包问题定位比较困难.本文通过对数据传输中不同节点的时间信息、时序信息进行研究,提出将相邻数据包的时间戳、包序号等时序信息进行比对,以图形方式展示差额结果,通过图形的特征快速定位丢包数据出现的故障点,该方法能够有效节约定位分析时间,提高分析效率.