一种基于语义的汉语短语识别方法

来源 :第一届全国信息检索与内容安全学术会议 | 被引量 : 0次 | 上传用户:lily009009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在简单分析语法上识别汉语短语困境的基础上,提出一种利用语义搭配关系识别汉语短语的方法.首先,利用同义词词林对词的语义类进行编码,并借助这种语义编码来表示语义关系;在此基础上,定义短语与已知语义知识的相似性,计算词语搭配的合理性;之后,利用短语内部的语义搭配合理性优于其他搭配这一性质,用算法实现了汉语短语识别过程.该方法应用于军事文本,从中识别出描述作战单位等信息的短语,取得较好的效果.
其他文献
针对自然语言处理中利用概念空间进行自动文档处理,本文提出一种基于组合词典和语料统计来计算概念内聚度的方法;该方法融合知识库和统计处理在概念关系判断方面的各自优势,有效计算概念语义关联,提高自动文档分析的准确性.通过实验验证本方法的有效性.
本文对应用最大熵原理建立语言模型的特征选取方法提出了改进,即先利用特征模板从训练样本中获得候选特征集,再应用频次与平均互信息相结合的方法从候选特征集中选取特征.改进后的方法在选择特征时,对候选特征集中出现频次大于某一限值的特征或平均互信息很大的特征直接加入特征集,并且不是每选出一个特征都调用参数的求解过程,从而加快了特征选择的速度.将改进的算法应用于文本纠错建议的排歧,实验证明,所改进的特征选择算
本文介绍了一个同时利用词语和义项来索引和检索文档的信息检索模型,称为"义项矩阵模型"SMM(Sense Matrix Model).利用词语和义项的关联提出了一种新的文档表示,即把文档表示成为一个term×sense矩阵,由此引进或建立起一步很有效用的数据分析技术,包括基于矩阵范数的文档相似度计算、文档向量和矩阵的离散余弦变换(DCT)、多维数据正交分解(MAD)等,并提出了一种新的、无需翻译或者
在信息检索的查询反馈处理中,可以利用聚类方法进行文档进而扩展查询条件[1].这时被选择进行聚类的文档集合一般是小规模的,并且由于信息检索有限的性能,文档之间可能出现非常接近、一定程度上相似、基本无关等多种情况.本文针对信息检索的查询反馈处理中文档集合的这些特性,分析了使用聚类算法处理小规模文档集合面临的特殊问题,提出了在文档归并和孤立点分离基础上进行聚类的策略,取得了较好的聚类结果.
随着Web技术的发展,网上论坛在人们的生活中起到了越来越重要的作用,论坛中也逐渐积累内容丰富的文档资料.然而,论坛消息本身的特点使得传统的信息检索和文本分析技术无法收到良好的效果.本文在分析论坛站点内部信息组织模式和链接结构的基础上,采用信息抽取技术获得论坛中的消息,重建论坛语义结构.此外,本文引入多维索引来组织论坛消息的特征,并通过分析消息序列在多个维度上的语义漂移现象,挖掘其中的完整语义信息单
网络信息检索已经成为互联网用户获取信息的主要途径之一,如何利用有限的计算和存储资源覆盖更多更有用的网络信息则是当前研究的热点和难点.网格计算作为一种全新的资源共享协作方式,在结构化信息的获取和利用上对网络信息检索研究有一定的参考意义.虚拟组织是网格体系结构中的基本组织单元,对网页链接关系的研究发现,在网页集合中存在着类似虚拟组织的结构形式:虚拟站点.借鉴网格研究中对虚拟组织的组织特性分析和网页非内
基于WEB的推荐及个性化服务是目前智能信息检索、电子商务、远程教育等领域研究的重点,本文在分析当前远程教育系统中个性化学习其存在问题的基础上,设计了一种基于web日志挖掘的推荐系统,介绍了远程教育中数据准备和页面学习推荐过程中聚类分析技术的应用,最终实现教学过程中的按需学习和因材施教的要求.文中重点介绍了聚类分析在预测推荐页面中的设计与应用,最后对算法在运行效果进行了定性的分析.
自然语言处理就是研究如何能让计算机理解和处理人们日常所使用的(如汉语、英语)语言.例如,对用户给计算机提出的问题,通过对话的方式,用自然语言进行回答.目的在于建立起一种人与机器之间的密切而友好的关系,使之能进行高度的信息传递与认知活动.自然语言理解系统可以用作专家系统、知识工程、情报检索、办公室自动化的自然语言人机接口,有很大的实用价值.那么计算机要理解人类的语言,首先就是要明确一个句子的意义.而
TREC2004 Robust任务有一项新要求,就是要把检索主题按照从易到难的顺序排列.针对新要求,该文提出了基于单词歧义性大小的检索主题难易度模型.根据WordNet和它附带的Brown语料库构造了单词义项分布词典,然后把检索主题中的单词按歧义性大小分为七类,通过计算平均单词容易度来度量检索主题的难度.实验结果表明该模型有一定的预测能力.最后预测了TREC2004 Robust任务的250个检索
在这个信息极度膨胀的社会中,如何迅速有效地检索获取信息已经成为人们迫切想解决的问题.问答式系统便是用以处理用户提出的自然语言问题,抽取有效信息,最后以自然语言给出答案的一个很好的工具.本文是关于基于实体语义关系的中文问题与答案关系的研究,在已知一些关系信息的基础上,通过问题解析、分类,答案形式与内容的匹配等步骤,最终给出自然语言的回答.另外,对于代词处理本文给出了一种解决方案.在实验系统中,问题的