藏文问答系统中答案抽取方法的研究

来源 :中国科技博览 | 被引量 : 0次 | 上传用户:liuhuanqw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘 要]该文提出了藏文问答系统中答案抽取的方法,即采用了基于相同词汇的句子相似度算法和基于关键词的相似度算法,根据多次试验的准确率来确定,本文通过基于相同词汇的句子相似度算法和基于关键词的相似度算法相结合的算法来抽取最佳的答案。
  [关键词]问题分类,关键字,相似度,答案抽取
  中图分类号:D911.04 文献标识码:A 文章编号:1009-914X(2016)03-0249-01
  1 引言
  目前,国内外有很多相对成熟的英文问答系统和中文问答系统,但到目前为止还没有藏文问答系统方面的研究成果,所以查找或了解一些藏语文方面的内容很不方便,必须借助书本或咨询别人来完成,那样需要花费很多的时间和精力,因此很多的藏文学者都渴望有个藏文的搜索引擎或藏文问答系统,最近这方面的研究者也越来越多,但目前还没正式开通藏文搜索引擎或藏文问答系统,所以研究这方面的内容是很有必要的。
  2 藏文问答系统
  藏文问答系统主要由问题分析、信息检索和答案抽取3个模块组成。 藏文问题系统的主要模块以及每个模块的主要工作是:
  2.1 问题分析模块
  ①藏文问句进行分词、词性标注。②问题进行分类。③进行句法分析。④关键词抽取。
  2.2 信息检索模块
  ①文档库中查找与问题相关的信息。②得到候选答案。
  2.3 答案抽取模块
  ① 与问题相关的大量信息进行处理。②计算句子相似度。③从候选答案中选取最佳的答案返回给用户。
  3 藏文问答系统中答案抽取方法
  3.1 关键词
  藏语语言学中任何句子都是由关键成分(主、谓、宾)、修饰成分(定、状、补)和语法成分(格助词、虚词)构成。主语、谓语和宾语对句子起主导作用,定义、状语等成分对句子起辅助作用。因此,可以将一个句子中的所有名词、代词、动词和形容词作为关键词。
  3.2 基于相同词汇的句子相似度计算
  通过计算句子中出现的相同关键词的数量占两个问题中关键词数量的比值来计算相似度。
  这种方法比较简单、直观,但它只是机械地统计相同词汇的比重,无法识别同义词,对同义词之间的替换能力产生了局限,当两句中出现大量同义词而表意相似时,该算法难以达到预期效果,需要进行更深层次的研究。
  3.3 基于关键词的相似度计算
  这种计算方法主要采用空间向量模型进行计算,只是对句子进行分词处理后,把句子看成词的线性序列,根据句子中的单词出现的频率等相关信息来计算句子的相似度。在向量空间模式中,把两个句子之间相互匹配的问题转化为向量空间中两个向量之间相互匹配的问题,两个句子的相似度可以用两个空间向量之间的夹角来衡量,夹角越小相似度越高。
  我们把句子看成是由许多相互独立的单字所组成,两个句子进行分词和去除一些冗余信息后,得到S1和S2的关键词序列构成的向量空间分别为M1={,,….,}其中M1为句子S1和S2的关键词,
  再为句子S1设定一个向量X={,,….,},其中代表关键词在句子S1中出现的次数,为句子S2设定一个向量Y={,,,…,},其中代表关键词在句子S2中出现的次数。
  根据藏文句法结构和词汇的不同,有時候算法1的相似度比较高,有时候算法2的相似度比较合适,所以本文采用基于相同词汇的句子相似度计算和基于关键词的相似度计算相结合的算法来抽取最佳的答案。
  3.4 基于相同词汇的句子相似度算法和基于关键词的相似度算法相结合的算法
  本算法采取算法1的百分之三十和算法2的百分之七十。三种算法的结果比较如表1:
  实验结果表明:三种测试的准确率和召回率相对比较低,原因是没有考虑到句子的语义信息,该系统还对解决实际问题还未考虑周全,有待进一步完善。虽然目前该系统还不够完善,但是已经为中小学藏语文问答系统中答案抽取的研究奠定了一定的理论基础,该方法完全可行。
  4 结论
  采用基于相同词汇的句子相似度算法和基于关键词的相似度算法相结合的算法,虽然能抽出答案,
  但这种算法也不是最佳的,这种算法只利用了句子的表层信息,没有考虑到句子的语义信息,如果两个句子意思相同,但句子之间的同义词过多时,相似度依然不高。所以下一步的工作是继续扩大数据库,将语义知识融入到本算法中。
  参考文献
  [1] 安见才让 藏语句子相似度算法的研究,中文信息学报,2011,25(4):110-114.
  [2] 刘震,肖文显.相似度算法下中文问答系统的设计与实现.河南科技学院学报.2012,40(5):86-88.
  [3] 余正涛,攀孝忠,宋丽哲.汉语问答系统答案提取方法研究.计算机工程.2006,32(3):183-185.
其他文献
[摘 要]教育部出台的《教育部关于开展现代学徒制试点工作的意见》指出,要建立现代学徒制职业教育体系。本文的研究旨在将“学徒制”这一理念应用于《机械制造技术》的课程开发,使《机械制造技术》的教学更加符合现代高等职业教育的发展需要。  [关键词]现代学徒制;课程开发;机械制造技术  中图分类号:TH-39;G712 文献标识码:A 文章编号:1009-914X(2016)03-0238-01  1 引
期刊
[摘 要]经济全球化是现实不是梦幻。任何人、任何民族、任何国家,如果不能正视现实,面对全球化,解决它所产生和不断提出的新问题,那都将陷于被动,并最终因错失机遇而抱憾终生。经济全球化主要指贸易自由化、金融国际化和生产一体化。全球化的根本动力乃是世界范围生产力和生产关系的加速进步。  [关键词]经济全球化;文化;多元发展  中图分类号:G112 文献标识码:A 文章编号:1009-914X(2016)
期刊
[摘 要]因为有的桥梁工程地理位置比较特殊,同时工程量也非常大,要求测绘工作具有较高的精确度,所以就应该在测绘过程中应用有效的测量技术。GPS技术是三维定位系统,能够快速并且准确的得到测量对象的具体三维坐标,同时提供相应的信息,被广泛应用于工程测量等领域。这种技术具有的优点非常多,其中包括工作效率高、测量精度高以及全天候等特点,具有非常广阔的应用前景以及发展价值。本文主要对桥梁工程测绘过程中GPS
期刊
[摘 要]当前在园林绿化市场竞争异常激烈的条件下,企业要在激烈的市场竞争中求生存、求发展,就必须向用户提供质量好、造价和工期合理的新产品,而生产一个优良产品,除了设计、材料供应等因素之外,主要靠合理的施工工艺和有效的施工现场管理来保证。施工现场管理水平的高低直接影响园林绿化的质量和企业的经济效益。本文在此从施工、养护等几个重要环节对加强园林绿化质量控制做了详细的分析。  [关键词]质量;环节;养护
期刊
[摘 要]随着近年来的普高热导致学生入学综合素质有所下降,传统的“一刀切”、“一锅煮”的方法进行教学,这势必造成学习好的学生“吃不饱”,学习差的学生“吃不了”的局面,已不能适应人才培养实际需要,职业院校是培养现代一线技术人才的教育教学机构,必须改革教育教学方法,以应用为主,够用为度为原则,对学生进行小班、分层、项目教学的革新工作。  [关键词]小班教学 项目教学 分层教学  中图分类号:P20-4
期刊
[摘 要]金融的脆弱性和金融资本的趋利性本质。市场交易信息不对称和道德风险、逆向选择的客观存在,决定实施金融监管以维护金融安全的必然性和必要性;金融监管制度安排的出发和立足点,要服从和服务于金融创新,提高金融效率、维护金融安全,一个有效率的金融监管制度应该符合四条原则,才能正确处理金融监管中的各类问题。在经济转轨过程中,商业银行的成长壮大,在很大程度上受到金融监管等外部因素的影响。良好的金融监管不
期刊
[摘 要]我国国际多式联运发展至今,已取得令人瞩目的成果。但其潜力未能得到应有的发展。本文对国际多式联运在我国的发展现状及对策进行分析研究,并根据目前存在的问题提出一些应对策略,这对我国当前发展国际多式联运有一定的指导意义。  [关键词]国际多式联运;发展;对策  中图分类号:F511 文献标识码:A 文章编号:1009-914X(2016)03-0250-01  一、引言  多式联运作为国际运输
期刊
[摘 要]线切割是模具制造教学中常用的特种加工设备,在技校的模具专业教学中存在一定的数量局限,一定程度影响了教学。线切割虚拟实验室有助于提高学习的效率和节约成本,同时在安全操作和教学考核上体现出了较多的优势,突破传统的教学方法,具有一定的可靠性。  [关键词]UG软件 线切割 虚拟教学 模型  中图分类号:TG580.66 文献标识码:A 文章编号:1009-914X(2016)03-0246-0
期刊
[摘 要] 十八大以来,随着行政体制改革的深入推进,围绕政府职能转变发生了很大的改变,今天我主要围绕六个方面的问题,给大家介绍一下深化行政体制改革背景下我国政府职能转变的新进展。一、对行政审批制度进行改革,二、探索政府、市场和社会的关系,三、推动基层行政体制改革,四、坚持依法行政,五、依法治理为官不为的现象,六、完善科学的宏观调控体系。  [关键词]政治体制 政府职能 转变  中图分类号:D630
期刊
中图分类号:G613.7 文献标识码:A 文章编号:1009-914X(2016)03-0240-01  游戏是孩子生命中迸发的激情。孩子爱玩游戏,尤其喜爱户外游戏。户外是一个开阔的天地,也是一本很好的教科书。有学者指出,幼儿园有必要把孩子的兴趣引向户外,让孩子接触户外自然,充分体验户外活动的快乐。户外活动的渐进有效性是在组织幼儿活动时,通过设置不同难度的游戏使幼儿逐步的增强体质和提高活动兴趣。幼
期刊