【摘 要】
:
汉语分词是中文信息处理的基础,它是由计算机自动识别文本中的词边界的过程。从计算机处理过程上看,分词系统输入的是连续的字符串(C1C2C3……Cn),输出的是汉语的词串(W1W2W3…
论文部分内容阅读
汉语分词是中文信息处理的基础,它是由计算机自动识别文本中的词边界的过程。从计算机处理过程上看,分词系统输入的是连续的字符串(C1C2C3……Cn),输出的是汉语的词串(W1W2W3……Wm),这里,Wi可以是单字词也可以是多字词。然而,由于汉语文本和英文文本这两种语言自身的书写方式不同,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思,词与词之间并没有明确的分隔标记,而是连续的汉字串。随着计算机技术的发展,对于计算机的文本处理能力提出了更高的要求,诸如智能拼音语句输入、手写和语音自动识别输入;文章的校对;简体和繁体中文的自动转换;信息检索和信息摘录;文本分类和自动文摘;语音合成;自然语言的理解和自动翻译;自然语言接口等。而所有这些中文处理功能都要建立在对汉语文本的分词处理这一基本功能之上。
本文首先阐述了汉语自动分词研究的现实性和可能性,接着介绍其研究现状,并扼要评价了十几年来产生的各种方法,围绕该研究中的其中的一个基本问题切分算法的改进展开了重点讨论,提出一种新的电子词表数据结构,它不仅支持首字Hash和标准的二分查找,而且不限词条长度,其查找效率很高;然后介绍了相应的分词算法--近邻匹配法,它是一种改进的MM算法,可以大大降低分词过程中的匹配次数,理论分析表明,该算法的效率优于其它方法;接着对其产生的歧义提出了相应的解决策略;最后就这个问题以后的发展谈了一点个人看法。
其他文献
隧道施工过程会产生大量的粉尘,尽管配有通风系统,但其效果往往由于隧道的纵深加大导致新风置换效果不佳.充分考虑隧道施工特点,采用拖挂式牵引,提高装置机动性,实现对掌子面
现代汽车上大都采用电动式车窗系统,摇窗电机是汽车电动车窗系统最重要的部件。从它的使用环境来看,摇窗电机既能在高温、低温、震动、潮湿、甚至能防水的环境中工作;又要满
建立沥青拌和站烘干滚筒烘干区叶片离散元仿真模型,基于离散元仿真与模拟试验相结合的方法,利用DOE响应曲面法对烘干区叶片参数匹配进行研究,获得满足不同产量下的最优参数组
随着电子信息技术水平的不断提高,电子设备进一步向着智能、便携、高效和高可靠性方向发展。印制电路板(PCB,Printed Circuit Board)作为电子元器件的互联载体,它的制造技术水平
本课题研究了HPLC法直接测定大枣提取液中cAMP含量的方法。采用氯化钡溶液除去多糖、果胶等大分子对色谱柱的影响,确定了HPLC法直接测定提取液中cAMP含量的色谱条件:色谱柱Shim
α-葡萄糖苷酶抑制剂和醛糖还原酶抑制剂是药理作用独特,安全有效的治疗糖尿病及其并发症的药物,本文采用体外分子模型筛选中草药和植物单体化合物,旨在寻找天然的α-葡萄糖苷酶
这虽只是一次小小的校内赛课,对于参赛者来说比赛的结果固然重要,然而我认为从课前准备到赛课再到课后反思这个过程中我的得失和成长经历却更为重要。
针对多源异构的不动产登记数据难以有效地整合关联,为不动产登记信息化建设带来巨大障碍的问题,本文基于既有土地、房屋等登记数据特征,探讨了不动产数据库整合的方法,通过实
井网加密是油田开发调整过程中最重要的措施之一,所采用的井网是否合理直接影响到最终采收率的大小.从朝阳沟油田朝55区块加密前实际生产状况出发,分析了其开发效果差的根本
“福建长汀被曝买卖儿童成风”的新闻引发震动,让人痛心!因为每一个儿童被拐卖的背后,都连着至少三个以上家庭的悲欢离合,甚至一生的苦痛与悲伤。多数公众认为,除了应该采取“买家也入刑”的重罚措施,才能斩断拐卖儿童的利益链条之外,少年儿童的家长,甚至少年儿童本人,都能够从小接受防拐教育,培养防拐意识,也非常有必要。湖南卫视引起轰动的真人秀节目——《一年级》,将在本周播出的节目中进行的一个防拐情景测试,就实