【摘 要】
:
词义消歧是自然语言处理中一类典型的分类问题.在分类中,特征的选择至关重要.通常情况下,特征是由人工选择的,这就要求特征选取者对于待分类的问题本身和分类模型的特点有深
【机 构】
:
北京大学信息科学技术学院计算语言学研究所,北京大学计算语言学教育部重点实验室
【基金项目】
:
国家自然科学基金Nos.60675035,60973053,90920011;北京市自然科学基金No.4072012~~
论文部分内容阅读
词义消歧是自然语言处理中一类典型的分类问题.在分类中,特征的选择至关重要.通常情况下,特征是由人工选择的,这就要求特征选取者对于待分类的问题本身和分类模型的特点有深刻的认识.分析了汉语词义消岐中特征模板对消歧结果的影响,在此基础上提出一套基于最大熵分类模型的自动特征选择方法,包括针对所有歧义词的统一特征模板选择和针对单个歧义词的独立特征模板优化算法.实验结果表明,使用自动选择的特征,不仅简化了特征模板,而且提高了汉语词义消歧的性能.与SemEval2007:task#5的最好成绩相比,该方法分别在微平均值MicroAve(micro-average accuracy)和宏平均值MacroAve(macro-average accuracy)上提升了3.10%和2.96%.
其他文献
从晚前寒武到早寒武世,古海洋的海水地球化学,生物面貌都经历了巨大的转折,并伴随着全球气候变化、板块的重新拼合、生物绝灭和后生动物群的发展等。在此过程中,最引人注目的
随着网络系统应用及复杂性的增加,网络蠕虫成为网络系统安全的重要威胁.在网络环境下,多样化的传播途径和复杂的应用环境使网络蠕虫的发生频率增高、潜伏性变强、覆盖面更广,
本研究从多个角度对高考加试体育江苏省盐城市相关民众进行民意调查研究。近二十年来全国学生体质健康调研表明,我国中学生的力量、心血管等机能体质指标持续下降。超肥胖学生
马王堆帛书自从被发掘以来深受学者重视,尤其是《系辞》篇释文被发表以来,研究帛书《系辞》的著述更是层出不穷,研究的内容也相当广泛,涉及到该篇的释文校释,重点词语的分析、研究
僵尸网络是一种从传统恶意代码形态进化而来的新型攻击方式,为攻击者提供了隐匿、灵活且高效的一对多命令与控制机制,可以控制大量僵尸主机实现信息窃取、分布式拒绝服务攻击
<正>南华大学刘子林同学来信说,十八大以来,中央新一届领导集体加大了反腐力度,其中的亮点有哪些?答:党的十八大以来,新一届中央领导集体开展的反腐工作,亮点有很多。亮点一:
目的探讨小剂量地塞米松晚期应用治疗重度支气管肺发育不良(BPD)的疗效及不良反应。方法回顾性分析小剂量地塞米松应用于治疗重度BPD前后呼吸机参数、临床体征、血气分析的变
以往对于物流金融风险研究,主要是在技术层面上采用定量分析来建模,围绕着如何量化效用与风险以期到最大化效用控制风险的目的。但是,信用风险具有主观复杂性,很大程度上由人的心
背景与目的对于接受过治疗的晚期非小细胞肺癌(NSCLC)患者后续治疗指南认为表皮生长因子受体酪氨酸激酶抑制剂(EGFR-TKIs)和化疗均可选择。但EGFR野生型(EGFR WT) NSCLC患者
目前课堂教学仍是硕士研究生培养的重要环节,是研究生专业知识、技能、方法等获得的主要途径,可以这样说,课堂教学质量的好坏直接关系到硕士研究生培养质量的好坏。随着研究