【摘 要】
:
传统的时间表达式识别方法主要分为两类:基于机器学习的时间序列标注方法和基于规则的方法。本文结合两种传统方法的优点,提出了一种规则与统计模型相结合的日语时间表达式识
论文部分内容阅读
传统的时间表达式识别方法主要分为两类:基于机器学习的时间序列标注方法和基于规则的方法。本文结合两种传统方法的优点,提出了一种规则与统计模型相结合的日语时间表达式识别方法。该方法在按照Timex2标准对时间表现进行细化分类的基础上,结合日语时间词的特点,渐进地扩展重构日语时间表达式知识库,并对基于知识库获取的规则集进行优化更新,提高日语时间表达式的识别精准度;再融合CRF统计模型提高日语时间表达式识别的泛化能力。实验结果显示,本文提出的方法有效,它克服了传统方法可移植性差以及对语料库规模具有依赖性的缺点,可利用有限资源构建高质量识别日语时间表达式系统。在完成日语时间表达式识别工作后,我们进行了日语时间表达式翻译成汉语的工作。我们分别实现基于Moses翻译模型以及基于日汉时间基类关键词对平行字典与日语时间表达式翻译规则的翻译方法,分析二者实验结果,提出统计机器翻译(SMT)结合规则进行日语时间表达式翻译的方法。实验结果显示本文提出方法的翻译效果是三种方法中最好的。“规则和统计的融合”是本文的主要创新工作。我们利用错误驱动学习思想,根据统计模型的识别与翻译结果修正基于人工启发式的日语时间表达式识别规则模板与日汉时间表达式翻译规则模板,动态扩展重构知识库与日汉时间表达式平行字典,用更新后的规则模板、知识库以及日汉时间表达式平行字典实现基于规则的识别与翻译方法,通过得到的结果来提高统计模型的训练语料质量,再进行统计模型识别工作与翻译工作。如此反复,直至系统的性能没有得到明显提高。我们提出的融合策略既提高了实验精度,又提高了系统的泛化能力。
其他文献
<正> 莎士比亚,不是想给你的名字招嫉妒 我这样竭力赞扬你的人和书: 说你的作品简直是超凡入圣, 人与诗神怎样夸也不过分。 …… 他可以折服欧罗巴全部的戏文。 他不属于一个
改革开放以来,中国经济得到了飞速发展,在经济发展的同时也造成了巨大的能源浪费。作为应用十分广泛的电力设备,变压器每年的电能损失是相当惊人的,变压器正确设计选型对整个
目的探讨外周血单个核细胞(PBMCs)及胎盘晚期糖基化终末产物受体(RAGE)表达及其与氧化应激的关系,了解其在妊娠期高血压疾病发生、发展中的作用。方法同期收治的轻、中度妊娠
本文立足于在研究楚文物图像造型艺术之上,挖掘其历史文化内涵,继而提出当代楚舞的两种创编方法:一、在找出古代楚舞的姿态、风格的基础上进行复原、模拟、创编,编创具有楚风
在IT行业项目管理中,其影响因素处理的是否得当,会直接影响到项目的完成质量与进度,本文基于这个出发点,提出了处理项目管理的影响因素的对策,为进一步研究IT项目管理的相关
目的:检测正常脑组织标本及不同WHO分级的人脑胶质瘤标本中SPINT2基因的表达及其甲基化状态,探讨SPINT2基因甲基化对胶质瘤发生、发展过程的影响。方法:选取8例正常脑组织及24
随着现代制造业不断的发展,用户的个性化要求日趋强烈,专业化、专用化、高科技的机床越来越得到用户的青睐,而雕铣机是近几年用户需求最火热的数控机床产品之一。传统模具压
山杨(Populus davidiana Dode),也称中国山杨,是我国乡土树种之一,属于白杨派重要树种。山杨分布广泛,能适生于北方寒冷、干旱、瘠薄土壤,其材质优良、质地轻软、木色淡白、
随着人们财产的增多,夫妻财产约定有着现实的必要性,相关法律纠纷在司法实践中已经大量出现。我国婚姻立法上的夫妻财产约定制度经历了从无到有的历程,目前夫妻财产约定已经
根据方正断陷断层几何学和运动学特征,结合盆地结构、沉积充填特征、油藏分布规律和国内外转换伸展型走滑盆地演化的物理模拟实验,从控盆、控源、控烃、控藏四个方面,开展断裂变