基于局部上下文特征的组合的中文真词错误自动校对研究

来源 :计算机科学 | 被引量 : 0次 | 上传用户：serena_gy

【摘要】

：

中文的真词错误类似于英文的真词错误，指一个中文词错成另一个词典中的词。提出一种基于混淆集的真词错误发现方法，通过对目标词的局部特征的提取，形成局部左邻接二元、右邻接二

【作者】

：

刘亮亮曹存根

【机构】

：

江苏科技大学计算机科学与工程学院,中国科学院计算技术研究所智能信息重点实验室

【出处】

：

计算机科学

【发表日期】

：

2016年12期

【关键词】

：

真词错误混淆集上下文特征 NGram模型 Real-word error Confusion set Context feature NGram model

【基金项目】

：

本文受国家自然科学基金项目（91224006,61173063,61035004,61203284,30973713）,国家社科基金重点项目（10AYY003）资助.

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

中文的真词错误类似于英文的真词错误，指一个中文词错成另一个词典中的词。提出一种基于混淆集的真词错误发现方法，通过对目标词的局部特征的提取，形成局部左邻接二元、右邻接二元及3个三元特征，然后通过和目标词对应的混淆集中的混淆词来估计二元概率和三元概率。最后提出一种多特征融合的模型，然后利用规则来判断中文文本中的真词错误。将查错结果分为标记错误和更改错误两种类型，采用18组混淆集，构造2万行的测试语料进行实验。实验表明，该方法能有效地发现中文文本中的真词错误，并且能给出真词错误的修改建议。该方法是一种集自动查错

其他文献

基于小波变换的双门限航迹关联算法

利用小波理论的多分辨率的特性,提出一种适于多目标环境下进行航迹关联的算法.该算法在双门限航迹关联算法基础上,通过考虑航迹的整体走势,结合小波变换,对特征向量进行处理,

期刊

多传感器数据融合理论小波变换双门限航迹关联算法计算机仿真wavelet transformdouble-thresholdtrackcorrelat

基于等能量原理的过程控制与建模

针对锌钡白转窑煅烧生产过程的复杂特性,文章依据反应动力学原理,在Arrhenius方程的基础上推导出煅烧过程的等能量等质量反应机理.这一机理从能量的角度描述了煅烧过程的反应

期刊

煅烧化工厂反应机理反应动力学生产过程反应特性锌钡白广州过程控制产品质量lithopone reaction kinetics regre

DH-1326血气分析仪的设计与实现

DH-1326血气酸硷分析仪利用电极对全血中的氢离子浓度、二氧化碳分压和氧分压进行定量测量,为抢救病人提供参考意见.仪器采用单片机技术,进行采样、处理,显示测量结果,打印测

期刊

DH-1326血气分析仪单片机测量原理CPUanalyzersingle-chip microcontrollermeasurementinte

导弹发射设备超声无损检测系统设计

为了实现导弹发射设备的快速自动无损检测,在对其特有外形及结构进行深入分析的基础上,设计开发了新型超声无损检测系统,并详细介绍了系统的软硬件设计方案,该系统大大缩短了

期刊

导弹发射设备超声无损检测系统系统设计自动识别ultrasonic nondestructive testinglaunching devicesca

一种基于局部拓展的并行重叠社区发现算法

处理海量级数据的有效途径之一是将算法分解为一系列互不依赖的任务，然后利用开源工具并行地执行算法。而在重叠社区发现算法中，基于局部拓展的方法在拓展阶段往往仅需要局部社

期刊

复杂网络重叠社区发现局部拓展并行化算法SPARKComplex network Overlapping community detection L

窃听攻击下子空间码的安全性

子空间码与随机线性网络编码相结合的网络系统具有编译码复杂度低、无需附加编码矢量和非相干通信等优点,曾被用于网络纠错。针对子空间码在窃听攻击下的安全性能,将攻击者猜

期刊

网络安全窃听攻击子空间码Network securityWiretap attackSubspace code

基于动态故障树的AFDX网络性能可靠性分析

AFDX网络是现代飞机集成的基础,其性能可靠性是飞机高可靠运行的保证。当前的研究虽然进行了性能评估或预测,但并没有针对网络故障所具有的相互影响、传播、依赖等特点深入研

期刊

AFDX网络性能可靠性业务动态故障树AFDX network Performance reliability Application DFT

基于MapReduce的新型微博用户影响力排名算法研究

微博凭借其即时发布、实时传播、简便易用的特点逐渐成为最为主流的自媒体平台。用户影响力评价是微博社交网络中基本而又重要的问题，它对于优化与推动社会信息传播来说有着重

期刊

PAGERANK算法MAPREDUCE用户影响力HADOOP平台PageRank algorithm MapReduce User＇ s influ

基于MP3的后置式自适应隐写算法

针对MP3隐写算法较为复杂、隐写容量较小的问题,提出一种基于MP3的后置式隐写算法。该算法根据待嵌入秘密信息的多少以及采用Hb码表编码的小值区码字数目的多少,自适应、较均

期刊

MP3隐写算法后置式隐写算法小值区自适应大容量MP3 steganography algorithm Post-type steganography

一种融合聚类与用户兴趣偏好的协同过滤推荐算法

协同过滤推荐算法可以根据已知用户的偏好预测其可能感兴趣的项目,是现今最为成功、应用最广泛的推荐技术。然而,传统的协同过滤推荐算法受限于数据稀疏性问题,推荐结果较差

期刊

推荐系统协同过滤聚类算法Recommender systems Collaborative filtering Clustering algorith

基于局部上下文特征的组合的中文真词错误自动校对研究

与本文相关的学术论文