【摘 要】
:
本文提出一种利用单语言网页挖掘辅助汉英人名反向音译的方法。该方法由两个阶段组成:第一个阶段是矫正过程,统计音译结果被划分成音节,然后将这些音节组成查询,利用基于音节
【机 构】
:
中国科学院自动化研究所模式识别国家重点实验室,北京 100080
【出 处】
:
第四届全国学生计算语言学研讨会(SWCL-2008)
论文部分内容阅读
本文提出一种利用单语言网页挖掘辅助汉英人名反向音译的方法。该方法由两个阶段组成:第一个阶段是矫正过程,统计音译结果被划分成音节,然后将这些音节组成查询,利用基于音节的搜索过程从一个大规模Web词典中搜索与音译候选相似的单词,使得错误的音译候选得到纠正,从而提高召回率;第二个阶段是重排序过程,将矫正过的音译候选作为查询在Web中提取其上下文信息和点击率信息,然后利用AdaBoost分类器判断其是否是正确的音译。这个阶段可以调整每个音译候选的得分,使之更合理.从而提高音译的精确率。实验结果显示,通过矫正过程,音译的封闭测试top-100召回率从72.52%提升到85.78%,开放测试Top-100召回率从41.73%提升到59.28%。通过重排序过程,音译的封闭测试top-5精确率从42.83%提升到76.35%,开放测试top-5精确率从19.69%提升到52.19%。实验结果显示,这种方法适合于反向音译任务。
其他文献
2008年初,我国南方大部分地区出现了罕见的大范围雨雪冰冻天气,给我国的水产养殖业带来了前所未有的打击。在天灾面前,农业部秘极响应、快速行动,在我国内陆及沿海几个重灾区
本文分析了寒流对南方罗非鱼养殖的影响,并提出了应对措施。2008年1月以来的长时间持续低温阴雨、强降温冰冻天气,使广东、广西的罗非鱼养殖遭受了非常严重的损失。据不完全统
本文分析了北京种植业结构变化对水资源利用影响。近年来由于降水量偏少,直接减少了北京市水资源量.尽管采取了多种节水措施,北京市水资源越来越紧张的局面没有改变,地下水埋
本文对南方广东地区特大冰雪灾害抗灾救灾过程中使用融雪剂清除高速公路积雪的方法进行了探讨。文章认为,使用氯盐融雪剂对高速公路基础设施使用寿命将产生危害,建议尽量使用
“5.12”四川汶川里氏8.0级强烈地震,绵阳市9个县市区普遍受灾,其中北川羌族自治县大部分遭受毁灭性灾害,损失最为惨重。这次强地震灾害不仅使人民群众的生命财产遭受重大损
1996年唐山地震发生20周年时,唐山开滦精神卫生中心曾做过一次调查,结果显示:接受调查的1813人中,有402人患有延迟性应激障碍,占22.1%。一项对1999年台湾大地震的跟踪调查显示,
本文根据野外应急调查,遥感解译和历史地质信息等资料,对“5.12”汶川地震引发的地质灾害形势进行了总体评估,划分了地震区地质灾害类型,描述了典型实例。基于汶川地震的基本
本文对做好卫生防病工作,确保灾后无大疫进行了论述。文章介绍了地震后公共卫生情况,阐述了目前灾区传染病的平稳形势,提出了灾区传染病风险及应对措施。
草莓在世界各种浆果中栽培面积和产量仅次于葡萄,居第2位。我国草莓栽培近年来发展迅速,栽培面积已达6.7万公顷,年产量100万吨以上,居世界首位。但我国草莓育种工作起步较晚,
本文从预报角度出发,分析了“低温雨雪冰冻”天气的主要特点,环流特征及成因分析、冻雨成因分析、暴雪(雨)成因。2008年1月低温雨雪冰冻期间的第一次过程为强冷暖气流共同所