论文部分内容阅读
摘要:本文结合藏语本身的结构特征和藏语的语法结构,通过对中文搜索引擎技术的分析,结合藏文搜索引擎的特点,设计出一个藏文领域电子商务搜索引擎的藏文分词算法。在该分词算法设计好之后,选取Nutch作为电子商务行业藏文搜索引擎的底层平台,设计出电子商务行业藏文搜索引擎。
关键词:电子商务;搜索引擎;藏文分词
引言
随着中国电子信息技术的发展,互联网应用渗透到藏区的每一个角落。在藏区电子商务的快捷性和方便性,使更多的藏区人们涌向网上商店,网络市场前景巨大,发展空间更为广阔。面对海量的网络信息资源,尽管人们可以通过百度、雅虎等传统的搜索引擎方便快捷的获取所需要的商业信息,但是对于检索某一特定行业的信息时,传统型搜索引擎对信息的挖掘深度还是不够。
对一个行业而言,如果没有优秀的专业检索工具,没有体现行业独特的词汇和用语以及相应的标引和检索语言,检索结果就不会理想。因此,建立面向特定行业领域的专业性搜索引擎已经成为搜索引擎新的发展趋势。本论文就是在深入研究传统搜索引擎和藏文本身结构特点的基础上,设计适合藏区电子商务行业的搜索引擎。
1、藏文的特征和藏语分词技术的难点
藏文是拼音文字,它由30个辅音的字母、4个元音字母以及上、下加字(辅音字母的变体)组成[1]。藏文字以音节为单位,每个音节最少可由一个辅音字母构成(元音和上、下加字不能独立成字),最多可由7个字母拼合而成,各音节间用音节点分隔。藏文的书写是自左向右书写,组成音节是以基字为中心分为前加字、后加字和又后加字(合称后加字),基字可横向和纵向双向拼写,而前加字和后加字只能横向拼写,具体如图1-1所示。
从藏语特征可知,藏文文本中的句子是通过单垂符和音节点相连接的,词与词之间没有空格,因此,在藏文文本处理中,首先遇到的问题是分词的问题。词的正确切分是进行藏文文本处理的必要条件。当今在电子商务需求的强大动力推动下,藏语的自动分词已经成为藏文信息处理领域的一个前沿性课题。藏文分词技术的优劣同中文分词技术的优劣一样,都是直接关系到搜索引擎的效率,建立电子商务行业的搜索引擎首先需要解决的就是藏文分词模块。建立适合电子商务搜索引擎的藏文分词技术来构建藏文分词模块是一项极其重要的基础性工作。如何大规模开发应用藏文文本是藏文分词研究亟待解决的主要问题。目前看来,大规模处理藏文文本,藏文分词系统还将面临以下困难:
(1)未登录词的识别。由于词典的不完备,有相当一部分的词可能收录不到词典当中,这些收录不到词典中的词称为未登录词或新词;
(2)藏语边界歧义问题。对于一个指定的藏文句子或藏字串,有多种词语边界划分形式,造成藏语歧义。
2、电子商务搜索引擎中藏文分词系统设计
2.1分词算法概述
语言学界、人工智能领域和情报检索界的专家学者们对汉语自动分词与自动标引进行了大量的研究与实践,但是对于藏文的自动分词和自动标注还是刚刚起步,需要更多的专家学者参与进来进行研究。现有的分词算法可分为三大类[2]:
(1)基于字符串匹配的分词算法
(2)基于理解的分词算法
(3)基于统计的分词算法
藏语分词也是在这三类分词的基础上进行的,目前国内关于藏语的分词算法有北京大学计算语言学研究所的基于格助词和接续特征的书面藏文分词(BCCF)[3]。在本算法中,规则格助词的识别主要依据前接字的接续约束关系邻接或句末动词的格接续关系来统一处理。不规则格助词由于不受后置字约束,需要接续特征规则的支持。歧义切分标记、堆块标记和截断标记仅为进一步分析提供信息,切分系统中不作输出。此算法的主要特点是:综合利用书面藏文字、词和句的接续特征进行确定性分词。其他关于藏文分词的算法暂时还没有找到。
2.2 电子商务搜索引擎中藏文分词系统设计
电子商务行业搜索引擎藏文分词系统的设计主要包括如下八个模块:原子切分、全切分、时间识别、数词识别、人名识别、地名识别、生成N条最优路径和生成分词结果序列。其他的模块共同维护着一个最重要的数据结构——切分词图,切分流程图如图2-1所示。从此图可知,给定一个输入的字串,首先把它切分成一个原子的序列,然后把这个原子序列中的每一个原子都作为词添加到切分词图中,同时把这个原子序列作为全切分模块的输入。全切分模块的任务是找出输入字串中所有在词典中出现的词并把每个词添加到切分图中,接下来是时间数词识别,它的输入是原子序列,利用自动机的方法找出输入字串中出现的数词和时间词并添加到切分词图中。然后根据以上几个阶段建立的切分词图生成N条最优的分词序列,以此作为接下来的人名识别和地名识别的输入。人名识别和地名识别对每一条分词序列进行角色标注,从角色标注结果序列中找出所有可能的人名和地名并添加到切分词图中。至此,整个切分词图建立完毕,根据这个切分词图,寻找出一条最优路径作为最后的分词结构序列。最后,将分词结构最为最后的分词系统的输出结构[4]。
3、电子商务行业藏文搜索引擎的实现
Nutch是当前比较流行通用的搜索引擎,是一个用Java语言实现的开源搜索引擎。Nutch不仅提供了运行搜索引擎所需要的全部工具,而且还具有较好的透明度[5],因此本文在搜索引擎藏文分词系统设计好后,选取Nutch作为研究藏文领域电子商务行业搜索的底层平台。
3.1藏文搜索引擎的整体结构
本文采用Nutch作为电子商务行业藏文搜索引擎的主框架,其框架3-1所示。在构建电子商务行业的藏文搜索引擎时只需要修改Nutch的部分源代码就可以得到使用用电子商务行业的藏文搜索引擎。
3.2电子商务行业藏文搜索引擎分词模块
由藏文搜索引擎的整体结构可以知道,本文的重心是藏文的搜索引擎,所以在图3-1中,用藏文网页内容向索引这一步骤之间加入藏文分词模块,以适合藏文搜索引擎的实际需求。
4、结论
本文结合藏语本身的结构特征和藏语的语法结构,借鉴中文搜索引擎的相关技术,并结合电子商务自身的特点基础上,构建出了一个电子商务行业的藏文搜索引擎系统。该系统对藏文分词模块进行了研究和探讨,并提出了解决方案,使该搜索可以应用于需要对网络信息进行深层加工、处理的相关应用中。该系统虽然可以应用在许多领域,但是该藏文搜索引擎系统只是对电子商务行业藏文搜索引擎的初步探究,在获取信息的全面性和准确性方面等还需要改进。
参考文献:
[1]周季文 藏语拼音教材[M] 民族出版社 2001年.
[2]冯书晓,徐新,杨春梅 国内中文分词技术研究新进展[J] 情报杂志 2002,(11):29-30.
[3]陈玉忠,李保利,俞士汶,兰措吉 基于格助词和接续特征的藏文自动分词方案[J] 语言文字及应用 2003年2月.
[4]张会鹏.中文词法分析技术的研究与实现[D].哈尔滨:哈尔滨工业大学,2006.
[5]Otis Gospodnetic.Erik Hatcher.Lucene in action中文版[M].北京:电子工业出版社,2007.
关键词:电子商务;搜索引擎;藏文分词
引言
随着中国电子信息技术的发展,互联网应用渗透到藏区的每一个角落。在藏区电子商务的快捷性和方便性,使更多的藏区人们涌向网上商店,网络市场前景巨大,发展空间更为广阔。面对海量的网络信息资源,尽管人们可以通过百度、雅虎等传统的搜索引擎方便快捷的获取所需要的商业信息,但是对于检索某一特定行业的信息时,传统型搜索引擎对信息的挖掘深度还是不够。
对一个行业而言,如果没有优秀的专业检索工具,没有体现行业独特的词汇和用语以及相应的标引和检索语言,检索结果就不会理想。因此,建立面向特定行业领域的专业性搜索引擎已经成为搜索引擎新的发展趋势。本论文就是在深入研究传统搜索引擎和藏文本身结构特点的基础上,设计适合藏区电子商务行业的搜索引擎。
1、藏文的特征和藏语分词技术的难点
藏文是拼音文字,它由30个辅音的字母、4个元音字母以及上、下加字(辅音字母的变体)组成[1]。藏文字以音节为单位,每个音节最少可由一个辅音字母构成(元音和上、下加字不能独立成字),最多可由7个字母拼合而成,各音节间用音节点分隔。藏文的书写是自左向右书写,组成音节是以基字为中心分为前加字、后加字和又后加字(合称后加字),基字可横向和纵向双向拼写,而前加字和后加字只能横向拼写,具体如图1-1所示。
从藏语特征可知,藏文文本中的句子是通过单垂符和音节点相连接的,词与词之间没有空格,因此,在藏文文本处理中,首先遇到的问题是分词的问题。词的正确切分是进行藏文文本处理的必要条件。当今在电子商务需求的强大动力推动下,藏语的自动分词已经成为藏文信息处理领域的一个前沿性课题。藏文分词技术的优劣同中文分词技术的优劣一样,都是直接关系到搜索引擎的效率,建立电子商务行业的搜索引擎首先需要解决的就是藏文分词模块。建立适合电子商务搜索引擎的藏文分词技术来构建藏文分词模块是一项极其重要的基础性工作。如何大规模开发应用藏文文本是藏文分词研究亟待解决的主要问题。目前看来,大规模处理藏文文本,藏文分词系统还将面临以下困难:
(1)未登录词的识别。由于词典的不完备,有相当一部分的词可能收录不到词典当中,这些收录不到词典中的词称为未登录词或新词;
(2)藏语边界歧义问题。对于一个指定的藏文句子或藏字串,有多种词语边界划分形式,造成藏语歧义。
2、电子商务搜索引擎中藏文分词系统设计
2.1分词算法概述
语言学界、人工智能领域和情报检索界的专家学者们对汉语自动分词与自动标引进行了大量的研究与实践,但是对于藏文的自动分词和自动标注还是刚刚起步,需要更多的专家学者参与进来进行研究。现有的分词算法可分为三大类[2]:
(1)基于字符串匹配的分词算法
(2)基于理解的分词算法
(3)基于统计的分词算法
藏语分词也是在这三类分词的基础上进行的,目前国内关于藏语的分词算法有北京大学计算语言学研究所的基于格助词和接续特征的书面藏文分词(BCCF)[3]。在本算法中,规则格助词的识别主要依据前接字的接续约束关系邻接或句末动词的格接续关系来统一处理。不规则格助词由于不受后置字约束,需要接续特征规则的支持。歧义切分标记、堆块标记和截断标记仅为进一步分析提供信息,切分系统中不作输出。此算法的主要特点是:综合利用书面藏文字、词和句的接续特征进行确定性分词。其他关于藏文分词的算法暂时还没有找到。
2.2 电子商务搜索引擎中藏文分词系统设计
电子商务行业搜索引擎藏文分词系统的设计主要包括如下八个模块:原子切分、全切分、时间识别、数词识别、人名识别、地名识别、生成N条最优路径和生成分词结果序列。其他的模块共同维护着一个最重要的数据结构——切分词图,切分流程图如图2-1所示。从此图可知,给定一个输入的字串,首先把它切分成一个原子的序列,然后把这个原子序列中的每一个原子都作为词添加到切分词图中,同时把这个原子序列作为全切分模块的输入。全切分模块的任务是找出输入字串中所有在词典中出现的词并把每个词添加到切分图中,接下来是时间数词识别,它的输入是原子序列,利用自动机的方法找出输入字串中出现的数词和时间词并添加到切分词图中。然后根据以上几个阶段建立的切分词图生成N条最优的分词序列,以此作为接下来的人名识别和地名识别的输入。人名识别和地名识别对每一条分词序列进行角色标注,从角色标注结果序列中找出所有可能的人名和地名并添加到切分词图中。至此,整个切分词图建立完毕,根据这个切分词图,寻找出一条最优路径作为最后的分词结构序列。最后,将分词结构最为最后的分词系统的输出结构[4]。
3、电子商务行业藏文搜索引擎的实现
Nutch是当前比较流行通用的搜索引擎,是一个用Java语言实现的开源搜索引擎。Nutch不仅提供了运行搜索引擎所需要的全部工具,而且还具有较好的透明度[5],因此本文在搜索引擎藏文分词系统设计好后,选取Nutch作为研究藏文领域电子商务行业搜索的底层平台。
3.1藏文搜索引擎的整体结构
本文采用Nutch作为电子商务行业藏文搜索引擎的主框架,其框架3-1所示。在构建电子商务行业的藏文搜索引擎时只需要修改Nutch的部分源代码就可以得到使用用电子商务行业的藏文搜索引擎。
3.2电子商务行业藏文搜索引擎分词模块
由藏文搜索引擎的整体结构可以知道,本文的重心是藏文的搜索引擎,所以在图3-1中,用藏文网页内容向索引这一步骤之间加入藏文分词模块,以适合藏文搜索引擎的实际需求。
4、结论
本文结合藏语本身的结构特征和藏语的语法结构,借鉴中文搜索引擎的相关技术,并结合电子商务自身的特点基础上,构建出了一个电子商务行业的藏文搜索引擎系统。该系统对藏文分词模块进行了研究和探讨,并提出了解决方案,使该搜索可以应用于需要对网络信息进行深层加工、处理的相关应用中。该系统虽然可以应用在许多领域,但是该藏文搜索引擎系统只是对电子商务行业藏文搜索引擎的初步探究,在获取信息的全面性和准确性方面等还需要改进。
参考文献:
[1]周季文 藏语拼音教材[M] 民族出版社 2001年.
[2]冯书晓,徐新,杨春梅 国内中文分词技术研究新进展[J] 情报杂志 2002,(11):29-30.
[3]陈玉忠,李保利,俞士汶,兰措吉 基于格助词和接续特征的藏文自动分词方案[J] 语言文字及应用 2003年2月.
[4]张会鹏.中文词法分析技术的研究与实现[D].哈尔滨:哈尔滨工业大学,2006.
[5]Otis Gospodnetic.Erik Hatcher.Lucene in action中文版[M].北京:电子工业出版社,2007.