基于局部上下文特征的组合的中文真词错误自动校对研究

来源 :计算机科学 | 被引量 : 0次 | 上传用户:serena_gy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文的真词错误类似于英文的真词错误,指一个中文词错成另一个词典中的词。提出一种基于混淆集的真词错误发现方法,通过对目标词的局部特征的提取,形成局部左邻接二元、右邻接二元及3个三元特征,然后通过和目标词对应的混淆集中的混淆词来估计二元概率和三元概率。最后提出一种多特征融合的模型,然后利用规则来判断中文文本中的真词错误。将查错结果分为标记错误和更改错误两种类型,采用18组混淆集,构造2万行的测试语料进行实验。实验表明,该方法能有效地发现中文文本中的真词错误,并且能给出真词错误的修改建议。该方法是一种集自动查错
其他文献
利用小波理论的多分辨率的特性,提出一种适于多目标环境下进行航迹关联的算法.该算法在双门限航迹关联算法基础上,通过考虑航迹的整体走势,结合小波变换,对特征向量进行处理,
针对锌钡白转窑煅烧生产过程的复杂特性,文章依据反应动力学原理,在Arrhenius方程的基础上推导出煅烧过程的等能量等质量反应机理.这一机理从能量的角度描述了煅烧过程的反应
DH-1326血气酸硷分析仪利用电极对全血中的氢离子浓度、二氧化碳分压和氧分压进行定量测量,为抢救病人提供参考意见.仪器采用单片机技术,进行采样、处理,显示测量结果,打印测
为了实现导弹发射设备的快速自动无损检测,在对其特有外形及结构进行深入分析的基础上,设计开发了新型超声无损检测系统,并详细介绍了系统的软硬件设计方案,该系统大大缩短了
处理海量级数据的有效途径之一是将算法分解为一系列互不依赖的任务,然后利用开源工具并行地执行算法。而在重叠社区发现算法中,基于局部拓展的方法在拓展阶段往往仅需要局部社
子空间码与随机线性网络编码相结合的网络系统具有编译码复杂度低、无需附加编码矢量和非相干通信等优点,曾被用于网络纠错。针对子空间码在窃听攻击下的安全性能,将攻击者猜
AFDX网络是现代飞机集成的基础,其性能可靠性是飞机高可靠运行的保证。当前的研究虽然进行了性能评估或预测,但并没有针对网络故障所具有的相互影响、传播、依赖等特点深入研
微博凭借其即时发布、实时传播、简便易用的特点逐渐成为最为主流的自媒体平台。用户影响力评价是微博社交网络中基本而又重要的问题,它对于优化与推动社会信息传播来说有着重
针对MP3隐写算法较为复杂、隐写容量较小的问题,提出一种基于MP3的后置式隐写算法。该算法根据待嵌入秘密信息的多少以及采用Hb码表编码的小值区码字数目的多少,自适应、较均
协同过滤推荐算法可以根据已知用户的偏好预测其可能感兴趣的项目,是现今最为成功、应用最广泛的推荐技术。然而,传统的协同过滤推荐算法受限于数据稀疏性问题,推荐结果较差