【摘 要】
:
中文粗分和歧义消解是中文分词的两大基本过程。通过引入广义词条和诱导词集,在最大匹配算法基础上提出一种中文分词的粗分方法,以最长广义词匹配为原则进行中文分词,利用诱
【机 构】
:
华中科技大学模具技术国家重点实验室,中国人民大学教育学院,安徽博约信息科技有限责任公司
【基金项目】
:
国家自然科学基金(No.70773052)
论文部分内容阅读
中文粗分和歧义消解是中文分词的两大基本过程。通过引入广义词条和诱导词集,在最大匹配算法基础上提出一种中文分词的粗分方法,以最长广义词匹配为原则进行中文分词,利用诱导词集实现交叉型歧义识别。在保证快速准确切分无歧义汉语语句的同时,100%检测并标记有歧义汉语语句中的交叉型歧义,最大程度上简化后续歧义消解过程。通过对含有160万汉字1998年1月人民日报语料测试的结果证明了算法速度、歧义词准确率以及粗分召回率的有效性。
其他文献
针对上市公司产能过剩和过度投资等非效率投资的问题,本文在金融发展的制度背景下,以我国2007—2011年的A股股权分置改革后的上市公司为样本,实证分析两类股权代理成本与公司
运用问卷、访问法及特尔斐法,拟定影响普通高校体育课教学质量的批判因素,然后针对各批判因素用层次分析法和模糊数学的理论对影响体育课教学质量的各层次和诸因素建立分析模
通过对农业节水多余水量去向分析,论证了农业节水向工业转移条件,并得出其存在帕累托改进。进而通过对农业节水与工业节水博弈分析,得出农业节水向工业转移会带来工业节水不
针对路径规划问题,论述了道路层次划分模型和多尺度道路网数据库的建立,提出了构建多级道路网拓扑结构的方法,在研究道路网络特征上,通过建立道路网模型,综合各路段的权值,应
基尼系数通常被用于衡量居民收入分配差距。本文基于简化的基尼系数计算公式,测算、比较长江三角洲地区及环渤海湾地区五省三市1990年至2012年期间的基尼系数,发现整体而言,
本文从宏观和微观两个方面选取相关指标,以2000年至2014年发生海外并购的46家中国企业为研究样本,运用事件评价法和最小二乘法,对中国企业海外并购绩效的影响因素进行量化分
在河北省平原区开展小麦-玉米轮作区农田硝态氮田间试验,采用雷磁计测定土壤剖面硝态氮含量,并分析降雨、土壤性质及微生物等影响因素。试验结果表明:常规施肥条件下,氮肥的
<正> 目前,我国史学界对1879年建立的德奥同盟性质的看法,基本上承袭前苏联的观点,即认为它是战争和侵略性的。其经典依据源自斯大林在联共(布)十四大中央委员会上的讲话。斯
重庆直辖以来经济快速发展,但城乡二元经济结构也非常突出,严重影响全民小康建设进程和经济持续健康发展。以重庆直辖以来的经济数据为基础,从收入水平、消费水平、劳动生产
为解决在移动通信基站信号频率干扰的问题,提出一种减弱或者消除在移动通信中频率干扰的优化算法.运用贪婪算法计算出单个基站的频率分配,再运用图论的建立、DP思想分配每个