面向藏文检索结果的聚类研究

来源 :数字化用户 | 被引量 : 0次 | 上传用户:liu822517
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘 要】随着信息的迅猛发展,针对检索系统的改进已逐渐成为研究的热点。通过对检索结果的进一步处理已成为研究的热点领域。采取聚类算法的研究是一种有效的改进策略,通过对检索结果进行聚类,将检索结果进行分类,这方便用户快速找到自己所需信息。本文是将传统的聚类算法运用到信息检索系统中,对检索得到的结果进行聚类,达到对结果分类区分。
  【关键词】信息检索;藏文;聚类
  一、引言
  随着IT技术的发展,我们处于一个信息爆炸的时代。目前人们对信息索取的需要也变得越来越严格,如何从海量数据中高效、准确地获得自己所需的信息,是目前国内外专家学者亟需研究的热点。信息检索是指从信息资源的集合中查找所需文献或查找所需文献中包含的信息内容的过程。藏文信息检索技术对于促进藏文信息处理技术的发展及广大藏语区的信息化程度的发展意义重大。藏文信息检索技术近年来在各个方面也取得了一些进展,目前已完成了基本的搜索功能,包括分词、去停用词、编码转换、建立索引、以及查询等关键技术[1]。为使用户能够从大量的检索信息中快速地找到自己感兴趣的内容,可以将聚类技术应用于搜索引擎中,通过对检索返回的信息进行聚类,可以使用户快速地定位到自己感兴趣的信息所在的类别,方便用户的查询。
  二、藏文检索关键技术
  藏文信息处理中的非常重要的工作就是藏文分词,目前很多专家对藏文分词作了研究并开发了相关分词系统,如何切分紧紧相连的字符又能最大程度保持原意,目前对于藏文的切分主要是BCCF(基于格助词和接续特征的分词)法[2]。
  Lucene是一个用Java写的全文检索引擎工具包,可以方便地嵌入到实现针对应用的全文索引检索功能。源码中核心类包主要有3个: analysis、index、search。其中, analysis主要用于切分词,切分词的工作由Analyzer的扩展类来实现。由于Lucene默认不支持藏文分词,因此需要扩展接口以实现藏文分词。利用扩展藏文分词是实现基于Lucene的藏文信息检索的重要一步
  支持藏文分词以后,基于Lucene的藏文信息检索以后的工作与汉语中的操作一致,还要对文档建立倒排索引表、相似度计算等。
  三、检索结果聚类算法研究
  聚类是在未知数据情况下寻找自然分组的过程,可以提高结果相关度,增加搜索结果针对性。对本文,聚类是针对检索结果形成不同分类,缩小用户搜索范围,只要用户选定某一话题就可针对该话题搜索,给用户一个选择范围弥补搜索的不相关性。聚类结果会以层次.关系形成导航栏,用户根据自己需求来选择要浏览的类别或下面的子类。目前,对检索结果进行聚类的算法主要有两大类。第一类是对现有的传统聚类算法进行使用或者改进,以适应信息检索结果的聚类,现有聚类算法主要以k均值为主;第二类是对检索信息的聚类技术是主题分析方法,首先获得结果集包含的多类信息,并抽取相应的特征,然后合并相关文档以形成一个类别,此方法描述每个类别所反映的主题[4]。由于传统聚类算法实现起来简单,本文拟采用传统的聚类算法对信息检索结果的聚类。
  传统聚类算法有划分法、层次法等,目前最常用的是划分法中的k均值算法,由于此算法具有速度快等优点,本文拟采用此算法。在检索的过程中,将所有包括查询项的文档进行建模,然后执行k均值算法对检索结果分类。
  k均值算法的基本过程为:(1) 从 n个数据对象任意选择 k 个对象作为初始聚类中心;(2) 根据每个聚类对象的均值,计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象划分;(3) 重新计算每个聚类的均值;(4)计算标准测度函数,当满足一定条件,如函数收敛时,则算法终止;如果条件不满足则回到步骤(2)。
  聚类过程中,对每个文档利用向量空间模型建模,从而将每一个文档表示成一个向量模型,向量上的每一个值对应的都是一个词在某一个文档中的文档频率-逆文档频率值。Tf值,公式如下:
  四、总结
  本文在基于藏文信息检索的上对结果进行聚类,以提高检索效率,将最终结果展现为目录分类形式。由于传统的聚类算法原理简单,实现起来高效快速,故本文选择了传统的聚类算法k均值算法进行聚类。本文目前的研究还很有限,算法的效率有待提高,或者使用更高效的算法以达到提高聚类效率以及准确率的目的。藏文信息检索技术将是未来藏文信息化处理的重要方向,具有很大价值,对于检索结果的聚类研究将是未来的热点研究领域。
  参考文献:
  [1]苏谭英,等.一种基于 LUCENE 的中文全文检索系统[J].计算机工程,2007.
  [2]陈玉忠,李保利,俞士汶,等.基于格助词和接续特征的藏文自动分词方案[J].语言文字应用,2003,1:75-82.
  [3]万德稳. 藏文搜索和搜索结果聚类研究及系统实现[D].西南交通大学,2013.
  [4]刘铭,刘秉权,刘远超. 面向信息检索的快速聚类算法[J]. 计算机研究与发展,2013,07:1452-1463.
  作者简介:蔚承刚,男,硕士研究生,研究方向为网络与应用;韩争艳,女,硕士研究生,研究方向为云计算;戴玉刚,男,教授,方向为自然语言处理;
  项目名称:西北民族大学中央专项资金资助研究生项目(项目号:ycx14031)
其他文献
【摘 要】在平时的美术活动中,往往只注重结果,对学生美术作品给予简单的讲评:“某某同学画的很干净,内容很丰富。”“某某小朋友颜色涂得很匀……。” 评价偏离了“促进学生发展”的轨道。为提高小学生在创作过程中作品的效果,采用即时效应评价和随机评价的方式,对美术作品效果的评价进行了尝试,采用有效的评价策略,使每个学生在不同层次的评价中获得对自己作品的理解与提升,我开始使用网络云盘。  【关键词】网络云盘
期刊
【摘 要】少年儿童是祖国的未来,以少儿为主要受众的专业频道需要建立儿童与栏目间的良性互动关系,以实现少儿对特定频道品牌的忠诚度和喜爱度。本文将从栏目品牌化建设的重要性入手,展现少儿栏目包装的视觉艺术表现形式,并以济南电视台少儿频道栏目包装设计为例,在制作和构思上将视觉动感表现与个性化发展的两个方面进行创新性设计,进一步实现栏目包装品牌化,成为少儿喜爱的家园。  【关键词】少儿频道 栏目包装 创新元
期刊
【摘 要】在中国,基于中国武侠情结和历史等,网络游戏衍生出了国产原创武侠类MMORPG这一分支并蓬勃发展,出现了一系列著名国产网游,但是在产业繁华的背后,国产MMORPG网游隐藏着一系列交互体验的模式化问题,针对这些问题,游戏开发商应从技术和用户细分方面进一步加以改进。  【关键词】国产网游 剑网三 交互体验  MMORPG(Massive Multiplayer Online Role-Play
期刊
【摘 要】随着计算机技术的快速发展,编程的复杂度越来越小,计算机仿真已然成为现代电子系统和通信系统领域研究的重要方法。本文运用科学计算软件MATLAB的SIMULINK组件对通信系统中QPSK信号的调制解调过程进行建模,通过分析仿真波形可知,仿真波形达到设计要求。  【关键词】Simulink QPSK 调制 解调  1、MATLAB与Simulink简介  随着电子技术的发展,计算机仿真越来越多
期刊
【摘 要】随着校园游戏开发技术的不断的发展和成熟,大学生对校园文化的认识不只是体现在学院的历史和文化的氛围,也体现在学校多元化的创新项目的发展,让学生在这么多项目的开展中能学到更多方面的技术知识。拥有属于自己校园的游戏已经刻不容缓,本项目以长江大学工程技术学院为背景,希望通过一个新的角度,让同学们对我们的学校有一个新的认识新的认可。  【关键词】校园游戏、长江大学工程技术学院、校园文化、创新项目 
期刊
【摘 要】近些年来,随着时代经济的飞速发展以及现代化技术的日新月异,同时现代化城市进程不断加快,对于如何做好现代化城市管理始终是我国研究的热点之一。城市管理部门作为一种特殊的职能部门,基于数字化城市管理系统的应用更是涵盖了城市综合性的管理,打破传统的城市管理模式,借助于现代化信息基似乎以及先进的管理理念保证数字化城市管理系统应用过程中有着正常性的运行。本文主要针对当前数字化城市管理系统应用中存在的
期刊
【摘 要】本文探讨了基于集中抄表系统技术的电力营销信息化研究,分别从集中抄表系统的定义、电力营销信息化的功能、集中抄表系统在电力营销管理中的功能等方面进行了阐述,集中抄表系统技术很大地推动了电力营销的信息化程度。  【关键词】集中抄表系统 ;电力营销 ;信息化  1集中抄表系统  集中抄表系统通过传输媒体,比如无线设备、有线设备等,同时进行多个电能表的抄表工作。该系统依靠供电单位的主站运行,当主站
期刊
【摘 要】随着科技不断的发展,自控领域技术不断的革新。通用测试系统已经成为了广大科研结构和高校的研究热点,尤其是测试软件的通用性成为了焦点。本文对通用ATS(Automatic Test System)软件平台进行研究与设计,探讨了通用型ATS软件平台的建设方法,给出了主要功能模块的设计方案。本文设计的通用型ATS软件平台具有很广泛的适用范围以及可移植性,能够有效地帮助测试人员提高维修以及测试工作
期刊
【摘 要】随着我国信息化技术的发展和计算机应用的普及,计算机的作用越来越明显。而在实际工作中发现,很多大学生的计算机应用水平不高,有的学生毕业甚至连常用的办公软件都不能熟练使用,这与企业对员工的要求相差较大。作为高校应明确计算机课程教学目标,改进课程教学方法,加强学生实践能力锻炼,努力培养适应社会需求的应用型大学生。  【关键词】高校;计算机;课程教学;问题;对策  一、大学生计算机专业技能掌握的
期刊
【摘 要】在过去电路实验教学中,实验时间有限,实验内容陈旧,实验效果不理想。本文提出新的电路实验教学模式——创新型实验教学,使学生实验时间、实验内容都可以自主。  【关键词】能力培养 创新型 实验模式  21世纪知识创新已经成为决定国家经济和社会发展的重要因素。在知识经济时代对高素质创新人才的需求不断扩大的新形势下,培养大批具有创新精神的人才是社会发展对高等教育的迫切要求。电路实验教学是高等学校电
期刊