电子商务搜索引擎中藏文分词算法分析初探

来源 :中国学术研究 | 被引量 : 0次 | 上传用户:lzbtthappy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:本文结合藏语本身的结构特征和藏语的语法结构,通过对中文搜索引擎技术的分析,结合藏文搜索引擎的特点,设计出一个藏文领域电子商务搜索引擎的藏文分词算法。在该分词算法设计好之后,选取Nutch作为电子商务行业藏文搜索引擎的底层平台,设计出电子商务行业藏文搜索引擎。
  关键词:电子商务;搜索引擎;藏文分词
  
  引言
  
  随着中国电子信息技术的发展,互联网应用渗透到藏区的每一个角落。在藏区电子商务的快捷性和方便性,使更多的藏区人们涌向网上商店,网络市场前景巨大,发展空间更为广阔。面对海量的网络信息资源,尽管人们可以通过百度、雅虎等传统的搜索引擎方便快捷的获取所需要的商业信息,但是对于检索某一特定行业的信息时,传统型搜索引擎对信息的挖掘深度还是不够。
  对一个行业而言,如果没有优秀的专业检索工具,没有体现行业独特的词汇和用语以及相应的标引和检索语言,检索结果就不会理想。因此,建立面向特定行业领域的专业性搜索引擎已经成为搜索引擎新的发展趋势。本论文就是在深入研究传统搜索引擎和藏文本身结构特点的基础上,设计适合藏区电子商务行业的搜索引擎。
  
  1、藏文的特征和藏语分词技术的难点
  
  藏文是拼音文字,它由30个辅音的字母、4个元音字母以及上、下加字(辅音字母的变体)组成[1]。藏文字以音节为单位,每个音节最少可由一个辅音字母构成(元音和上、下加字不能独立成字),最多可由7个字母拼合而成,各音节间用音节点分隔。藏文的书写是自左向右书写,组成音节是以基字为中心分为前加字、后加字和又后加字(合称后加字),基字可横向和纵向双向拼写,而前加字和后加字只能横向拼写,具体如图1-1所示。
  


  从藏语特征可知,藏文文本中的句子是通过单垂符和音节点相连接的,词与词之间没有空格,因此,在藏文文本处理中,首先遇到的问题是分词的问题。词的正确切分是进行藏文文本处理的必要条件。当今在电子商务需求的强大动力推动下,藏语的自动分词已经成为藏文信息处理领域的一个前沿性课题。藏文分词技术的优劣同中文分词技术的优劣一样,都是直接关系到搜索引擎的效率,建立电子商务行业的搜索引擎首先需要解决的就是藏文分词模块。建立适合电子商务搜索引擎的藏文分词技术来构建藏文分词模块是一项极其重要的基础性工作。如何大规模开发应用藏文文本是藏文分词研究亟待解决的主要问题。目前看来,大规模处理藏文文本,藏文分词系统还将面临以下困难:
  (1)未登录词的识别。由于词典的不完备,有相当一部分的词可能收录不到词典当中,这些收录不到词典中的词称为未登录词或新词;
  (2)藏语边界歧义问题。对于一个指定的藏文句子或藏字串,有多种词语边界划分形式,造成藏语歧义。
  
  2、电子商务搜索引擎中藏文分词系统设计
  
  2.1分词算法概述
  语言学界、人工智能领域和情报检索界的专家学者们对汉语自动分词与自动标引进行了大量的研究与实践,但是对于藏文的自动分词和自动标注还是刚刚起步,需要更多的专家学者参与进来进行研究。现有的分词算法可分为三大类[2]:
  (1)基于字符串匹配的分词算法
  (2)基于理解的分词算法
  (3)基于统计的分词算法
  藏语分词也是在这三类分词的基础上进行的,目前国内关于藏语的分词算法有北京大学计算语言学研究所的基于格助词和接续特征的书面藏文分词(BCCF)[3]。在本算法中,规则格助词的识别主要依据前接字的接续约束关系邻接或句末动词的格接续关系来统一处理。不规则格助词由于不受后置字约束,需要接续特征规则的支持。歧义切分标记、堆块标记和截断标记仅为进一步分析提供信息,切分系统中不作输出。此算法的主要特点是:综合利用书面藏文字、词和句的接续特征进行确定性分词。其他关于藏文分词的算法暂时还没有找到。
  2.2 电子商务搜索引擎中藏文分词系统设计
  电子商务行业搜索引擎藏文分词系统的设计主要包括如下八个模块:原子切分、全切分、时间识别、数词识别、人名识别、地名识别、生成N条最优路径和生成分词结果序列。其他的模块共同维护着一个最重要的数据结构——切分词图,切分流程图如图2-1所示。从此图可知,给定一个输入的字串,首先把它切分成一个原子的序列,然后把这个原子序列中的每一个原子都作为词添加到切分词图中,同时把这个原子序列作为全切分模块的输入。全切分模块的任务是找出输入字串中所有在词典中出现的词并把每个词添加到切分图中,接下来是时间数词识别,它的输入是原子序列,利用自动机的方法找出输入字串中出现的数词和时间词并添加到切分词图中。然后根据以上几个阶段建立的切分词图生成N条最优的分词序列,以此作为接下来的人名识别和地名识别的输入。人名识别和地名识别对每一条分词序列进行角色标注,从角色标注结果序列中找出所有可能的人名和地名并添加到切分词图中。至此,整个切分词图建立完毕,根据这个切分词图,寻找出一条最优路径作为最后的分词结构序列。最后,将分词结构最为最后的分词系统的输出结构[4]。
  


  
  3、电子商务行业藏文搜索引擎的实现
  
  Nutch是当前比较流行通用的搜索引擎,是一个用Java语言实现的开源搜索引擎。Nutch不仅提供了运行搜索引擎所需要的全部工具,而且还具有较好的透明度[5],因此本文在搜索引擎藏文分词系统设计好后,选取Nutch作为研究藏文领域电子商务行业搜索的底层平台。
  3.1藏文搜索引擎的整体结构
  本文采用Nutch作为电子商务行业藏文搜索引擎的主框架,其框架3-1所示。在构建电子商务行业的藏文搜索引擎时只需要修改Nutch的部分源代码就可以得到使用用电子商务行业的藏文搜索引擎。
  


  3.2电子商务行业藏文搜索引擎分词模块
  由藏文搜索引擎的整体结构可以知道,本文的重心是藏文的搜索引擎,所以在图3-1中,用藏文网页内容向索引这一步骤之间加入藏文分词模块,以适合藏文搜索引擎的实际需求。
  
  4、结论
  
  本文结合藏语本身的结构特征和藏语的语法结构,借鉴中文搜索引擎的相关技术,并结合电子商务自身的特点基础上,构建出了一个电子商务行业的藏文搜索引擎系统。该系统对藏文分词模块进行了研究和探讨,并提出了解决方案,使该搜索可以应用于需要对网络信息进行深层加工、处理的相关应用中。该系统虽然可以应用在许多领域,但是该藏文搜索引擎系统只是对电子商务行业藏文搜索引擎的初步探究,在获取信息的全面性和准确性方面等还需要改进。
  
  参考文献:
  [1]周季文 藏语拼音教材[M] 民族出版社 2001年.
  [2]冯书晓,徐新,杨春梅 国内中文分词技术研究新进展[J] 情报杂志 2002,(11):29-30.
  [3]陈玉忠,李保利,俞士汶,兰措吉 基于格助词和接续特征的藏文自动分词方案[J] 语言文字及应用 2003年2月.
  [4]张会鹏.中文词法分析技术的研究与实现[D].哈尔滨:哈尔滨工业大学,2006.
  [5]Otis Gospodnetic.Erik Hatcher.Lucene in action中文版[M].北京:电子工业出版社,2007.
其他文献
摘 要:陶瓷艺术博大精深,历史悠久,其各种成型工艺经过历史的洗礼变得日趋完善,每种成型工艺体现不同的视觉效果,陶瓷艺术家根据自身文化内涵的多样性,利用不同的工艺创造出很多不同艺术风格的作品,但大多数作品都具有相同的审美特质——主观表现性。然而,真正成熟的陶瓷艺术家必须要有理性,不能盲目追风模仿,时代性、地域性、特色性是每位陶瓷艺术家毕生的追求。  关键词:陶瓷;成型工艺;审美特质;艺术风格    
期刊
摘 要:施工项目成本管理是施工企业管理的关键环节,是企业利润的源泉,会计人员在成本管理中的作用尤为重要,本文作者从施工项目成本的定义和意义、施工项目成本管理的原则、施工项目成本管理中存在的主要问题、会计人员在施工项目成本管理中担负的责任与作用等几个方面展开论述,系统表述了会计人员在施工项目成本管理工作中的重要作用。  关键词:会计人员;成本管理;重要作用    现代施工企业,会计人员的工作已不仅仅
期刊
随着建筑业的迅猛发展,农民工成为改革发展后涌现的一支新型劳动大军,他们工作辛苦,对社会贡献很大,因此,我们应当也必须组织好、教育好、善待好、服务好农民工。做好农民工的思想政治工作,不仅对农民工自身发展有好处,对于促进建筑业持续健康发展、构建和谐社会具有十分重要的作用。为此,必须深入了解建设行业农民工的思想状况,掌握农民工的基本情况和特点,对症下药,消除农民工培训和思想政治工作的“症结”,赢得农民工
期刊
税收征管的一项基础性工作就是税务部门对辖区税源的管理。重点纳税大户往往也是在某一地区或行业中的经营大户,其纳税额在税收收入中占有举足轻重的地位,它是直接影响税收收入的主要因素。因此,重点税源管理和监控可以说是组织收入工作中的重中之重。只有核实和控制了重点税源,才能使征管措施做到对症下药、有的放矢,才能增强组织收入的预见性、主动性,从而使税收收入建立在坚实可靠的基础之上。     一、目前重点税源管
期刊
摘 要:思想政治教育在我国文化建设的历程中一直担当着重要的角色,无论是古代传统文化的继承和发扬,还是近现代马克思主义理论的传播,抑或是今天社会主义和谐社会的构建和社会主义和谐文化的建设,思想政治教育都发挥了极其重要的作用,是文化传承和文化建设的重要推动力量。当前,我们正在进行着社会主义和谐文化的建设,必须在继承前人、总结前人经验教训的基础上展开,才能少走弯路或不走弯路,才能少犯错误。故而在此,我们
期刊
摘 要:《三字经》不仅是我国古代影响最大最有代表性的童蒙读物,而且是联合国教科文组织在世界范围加以大力推广的《儿童道德丛书》,更是一部难得的教育专著。本文主要从教育是一个系统工程 、德育为首立志扬名、贵以专和循序渐进的教育原则、说理教育和榜样教育法等四个方面介绍《三字经》的教育思想及其传承。  关键词:《三字经》;教育思想;传承    《三字经》是我国古代童蒙读物最有代表性的教材之一,相传为南宋学
期刊
摘 要:钢结构住宅适合在工厂大批量的生产,并且工业化和商品化程度在不断地提高,能够把设计、生产、施工和安装整合为一体。进而使住宅产业化水平得以提高。基于上面的优点,钢结构在住宅市场势必会有很好的发展前景。  关键词:钢结构;住宅;施工技术    钢结构在高层建筑方面的运用已经经历了数十年,由于炼钢技术与成型制造工艺日趋发展,这就给运用钢结构工程带来新的生机,工程建设也不断的增加,因此,也就不断完善
期刊
摘 要:当今世界各国都在积极推行政府绩效管理,并取得了一定的成绩。建设廉洁高效的政府是我国政府改革的主要目的,目前的政府绩效管理成为提高我国政府效率和执政能力的重要路径。政府绩效管理是一种行政管理上的制度创新,如今也成为各国推行政府改革的有效管理工具,同时它也是我国构建服务型政府的必经之路。虽然我国政府在绩效管理方面已经取得了一些成绩,但仍存在多种问题亟需研究,本文在了解政府绩效管理的理论依据和研
期刊
一、工作内容   建制镇土地调查包括建制镇建成区地籍测量、权属调查、数据建库、质量自检、编写报告及图表的输出等。   二、首级控制   控制测量是以镇为单位,建立了D、E级GPS控制网。   (一)起算点   1、起算点坐标来源   控制网主要以边连接形式组网,起算点均是国家二、三等三角点。   2、起算点精度检查   通过控制点之间相互解算的方式进行检查,在起算点完全满足精度要求
期刊
摘 要:研究运用电脑制图配合全站仪,利用极坐标法、直角坐标法解决在建筑结构中的放线问题,并结合工程实例,验证了该施工方法的有效性。  关键词:电脑制图;放线问题;施工方法    一、工程简介    1.工程概况:  菏泽大剧院位于菏泽市新城区中心位置,造型呈牡丹花状,是菏泽市的一项标志性工程、亮点工程,是一道靓丽的风景线,被称为菏泽的会客厅。本工程建筑面积40202平方米,框架-剪力墙结构,于20
期刊