【摘 要】
:
现代汉语构式成分自动标注作为文本自动标注任务之一,其最大的困难在于,当不存在标注语料作为训练数据时,如何从生语料中挖掘不同类型的构式成分相关的知识并进行标注,特别是
【机 构】
:
北京大学中国语言文学系,北京大学计算语言学教育部重点实验室,北京大学中国语言学研究中心
【基金项目】
:
教育部人文社科基地2015年度重大项目(15JJD740002),国家自然科学基金(61876004)
论文部分内容阅读
现代汉语构式成分自动标注作为文本自动标注任务之一,其最大的困难在于,当不存在标注语料作为训练数据时,如何从生语料中挖掘不同类型的构式成分相关的知识并进行标注,特别是面对构式序列在句中的边界难以判断的情况。该文试图借助高斯混合模型聚类方法,结合句中每一个字的位置特征与构式形式本身的语言学特征,融合正则表达式匹配结果信息,挖掘句子中的构式实例序列,并对构式内部成分进行自动标注。相较于仅基于正则表达式匹配和词性匹配的自动标注结果,该方法的F1分别至少提高了17.9%(半凝固型构式)、19.3%(短语型构式)、1
其他文献
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
党的十九大报告提出促进农村一二三产业融合发展,以此作为实施乡村振兴战略的重要抓手。宣恩县隶属湖北省恩施土家族苗族自治州,位于武陵山区腹地。全县国土面积2737平方公里
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
6月19日,中国人民银行发布公告,决定重新启动2005年7月21日开始的外汇体制改革。这比我当初预料的时间早了10天。今年3月22日,我在本专栏“再论人民币汇率重启升值(一)”一文中,就
【正】 1980年5月,石家庄市西北郊陈村一队社员在整修麦场时,发现一座壁画墓。市文物保管所得讯后,派陈耀林、孙启祥、李胜伍前往调查。6月4日至5日对该墓进行了清理,并临摹
随着高等教育的不断完善和普及,我国大学生毕业数量逐年增加,这给就业市场带来了较大的压力,容易导致不和谐、 不稳定的因素。但新时期内文化产业等新兴产业以及自主创业的兴起,
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
针对当前新疆南疆地区干果类仓库自动化程度不高、空间利用率低和劳动强度大等问题,设计了一种基于PLC的干果类仓库自动控制存取系统。用光电传感器检测待存取仓位货物,以PLC为
小学阶段的学生学习语文知识不仅可以提高学生的认知能力和思维能力,还可以提高小学生的语言表达,为小学生以后的学习打下一个坚实的基础。在阅读教学中合理引入微课,利用现
目的分析河南驻马店市经性传播的艾滋病病毒(HIV)感染者中,HIV流行毒株亚型及其毒株特征。方法通过专业问卷调查,了解驻马店地区经性传播HIV感染者的基本状况。采集感染者的E