【摘 要】
:
词的正确切分是进行中文文本处理的必要条件。带标注语料库的出现弥补了分词规范和词表的很多不足,使得分词可以动态地进行。可是现阶段带标注语料库的标注质量不高,很多经过人
论文部分内容阅读
词的正确切分是进行中文文本处理的必要条件。带标注语料库的出现弥补了分词规范和词表的很多不足,使得分词可以动态地进行。可是现阶段带标注语料库的标注质量不高,很多经过人工校对的语料还存在着大量的分词不一致现象,严重影响了分词的结果和后续的工作。如何解决语料里大量的分词不一致问题,是我们亟待思考的问题。
本文首先明确了什么是分词不一致的概念,将分词不一致产生的主要原因归结为人的心理词库的差异。并通过对1998年《人民日报》语料中的分词不一致进行统计,得出分词不一致字串主要集中在低频词,且随着使用频率的增加,从合度将逐渐趋近于1的结论。将分词不一致字段按照语义和语法结构加以分类,共分出3个大类,20个小类,提出将相同结构类型的词处理成相同的切分形式。
本文利用词库与词法知识,建立了规则库、组合型歧义库、固定词表和特殊单字词库,用来解决汉语分词语料库中相同结构类型的分词不一致。计算机利用这些知识较好地识别出了“大+动词(单字)”、“动补结构”和“颜色词+物体名”,召回率在96%以上,精确率在95%以上,并能根据用户的要求统一处理成“分”或“合”的形式。
本研究的意义在于将前人对于分词不一致的概念界定清楚,并利用统计知识详细地考察了它们的出现规律和分布情况。将本体的词库和词法概念引入,不仅合理地阐释了分词不一致产生的根源,而且从词法的半自由语素和构词模式中提取计算机可以识别的构词规则,将前人只是对具体分词不一致特例的解决扩大到具有普遍意义的按类处理,从而为最终解决分词不一致问题提供了可行的技术路线。
其他文献
今年6 月号“作文素材搜搜”栏目的搜索主题是“上学放学”.征稿启事一发出,就收到了不少小作者的投稿.大家每天都要上学放学,按理说可写的素材应该很多,但在看完所有的投稿
做功课真累呀!让我休息一下,放松放松吧!rn我拿出平板电脑,打开《贪吃蛇》游戏玩了起来.刚开始,我是一条仅有三节的小蛇,在我周围出没的都是长达几十节的庞然大物,稍不留神我
快乐王国里有一位国王,他不是高大威猛的成年人,而是一个活泼可爱的小男孩.他长了一只猫耳朵和一只狗耳朵,眼珠子的颜色也不同,一只蓝一只绿,好玩极了!
当人面对两种或两种以上的互不兼容的选择,而每一种都颇具诱惑力时,冲突就产生了。为冲突找到平衡点,满足人性的不同面需求的品牌,就能得到消费者的认可。对于女人而言,既想
国庆假期,我和朋友们去融水雨卜苗寨里的稻田抓禾花鱼.抓鱼的过程可真是一波三折呀!rn也许很多人会问:为什么禾花鱼会在稻田里?哈哈!因为这是苗族特有的养鱼方式.春天把鱼苗
栝楼属多年生宿根草质藤本植物,全国各地都有栽培。为达稳产高产,现将栝楼的授粉知识介绍如下,以供在生产实践中参考。栝楼雌雄异株,靠昆虫为媒介进行传粉。传粉是授精的前
在这个讲究包装的年代,很多人未必知道福思;在这个信息快餐化的社会,万江春也不是名誉与地位光环下的达人。作为一个脑力劳动者,她把创作的压力转化为幸福的思考:作为一位女
2008年9月18日,“首届中国(郑州)水墨艺术双年展”在郑州隆重举办。中国文联副主席、中国美协副主席刘大为,中共河南省委常委、郑州市委书记王文超,河南省人大常委会常务副主
针对移动通信网络数据业务急速增长带来的频谱资源紧张和系统能耗增加的问题,超蜂窝网络架构通过控制覆盖和业务覆盖的适度分离,引入基站的动态休眠和资源调度,从而大幅度提
《孟子》是儒家的基本文献之一,也是中国文化宝库中十分重要的典籍,具有很高的思想价值和艺术成就,在历史上曾经产生极为广泛的影响,直至今日依然为人们所珍视。自汉代开始,