藏文搜索和搜索结果聚类研究及系统实现

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:uilyz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
藏文历史悠久,是藏族文化和藏族文明传承的载体,使用人数有600多万。藏文文献数目庞大,内容广泛。随着windows系统对藏文的支持,藏族同胞参入网络活动的热情日益高涨。然而当前尚无藏文搜索引擎,国内外各大著名搜索引擎也不提供藏文搜索,因而对藏文搜索系统的研究意义重大。本文围绕如何实现藏文搜索系统,研究了藏文分词,藏文文本收集,文本处理,编码转换,索引搜索及结果聚类等相关问题,旨在实现一个功能完善的藏文信息检索系统。本文的主要工作如下:第一,提出了一种AllCut藏文分词算法。藏文词间没有分隔符,因而需要分词。当前分词算法主要有基于统计概率、词性标注及语法规则等。然而这些算法或需要大量的语料训练学习,或实现起来很复杂,在当前情况下难以实现或实现效果并不好。因而本方案使用词典匹配,结合藏文的语法特性及格助词和接续性特征,同时使用细粒度切分,取得了很好的分词效果,为接下来工作提供了保障。第二,藏文聚类研究。本文首先研究了中藏聚类中文文本表示,藏文停词等相关问题:使用向量模型表示文档,使得文本可以很好的被计算机存储和处理;通过统计大量文档得到藏文停词,排除了这些词对聚类效果的干扰。最后系统研究了及划分法和层次法聚类算法对于藏文的聚类效果。第三,藏文信息检索研究及系统实现。藏文信息检索主要研究了藏文网页收集,藏文编码转换,藏文网页预处理,及藏文文本存储等,解决了计算机对藏文的处理和检索;然后以Lucene为基础,实现了该搜索系统,系统能够自动更发现更新藏文资源,提供藏文搜索功能,完成了藏文搜索引擎的功能。并结合藏文聚类对搜索结果聚类显示,提高了搜索结果的针对性和准确性。
其他文献
在信息化程度高度发达的今天,随着高技术武器的不断发展和致伤武器的多样化及其在战争中的广泛应用,不但导致短时间内出现大量的伤病员,而且使得伤情变得复杂。这对长期处于和平
在云存储环境下,如何高效、动态地完成多副本数据的完整性审计是一项极具挑战性的问题。数据所有者为了节约存储成本,通过远程服务将数据外包存储在云服务端。由于云服务提供
现今的大多数数据挖掘算法更偏重于发现大部分数据的模式匹配,却不太深入研究那些偏离模式的特殊数据对象。然而恰恰就是这些罕见事件、特殊对象、异常信息的价值有时候往往会
近些年,计算机辅助语言学习发展迅速,并且受到了越来越多的学者广泛地关注。该学科主要通过计算机和信息技术的辅助来推进简单的外语教学活动。但事实上却很少有能够用于外语口
在信号处理领域中,主动噪音控制的任务就是在受到干扰和噪声污染的信号中提取有用信号。自适应滤波能够实时地调整自己的滤波参数,以满足某种最佳准则的要求。自适应滤波算法
近年来随着生物医学工程的迅猛发展,测量技术的提高使得大量的医学信息以电子格式被记录下来,这些信息不仅包括CT影像,X光片,各项生理指标还包括病人的年龄,性别,体重,身高,既往病史
在生物领域,对DNA与蛋白质相互作用的研究是对基因表达与调控进行了解的重要手段。随着ChIP-seq技术在这些领域的应用日益广泛,如何对大量Chip-seq数据进行处理分析并获取生物
网页与电子邮件中的图像经常嵌入一些文字信息。以图像作为文字的载体源于许多需求,例如美化页面标题和文章标题,广告中吸引人们的注意,还有一些隐藏信息如垃圾邮件中的不良文本
在数字高程模型(Digital Elevation Model,简称DEM)数据上进行路径搜索和地貌类型的划分是数字地形分析在地理学、地貌学以及地理信息科学中研究的热点问题,在人类生产、生活
随着人工神经网络、数据挖掘等智能信息处理方法的广泛应用,与之相关的改进算法也不断涌现,不同程度、不同角度提高了算法的性能。但是,随着数据规模的快速增长,人们希望利用