信息检索中Markov网络图模型研究

来源 :江西财经大学 | 被引量 : 9次 | 上传用户:kuangyunlo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着因特网的快速发展和全球化进程的加快,互联网的信息资源呈爆炸式的增长。大规模信息的出现改变了传统的知识获取方式,使得互联网成为了人们获取知识的主要来源之一。如何在这些大量、异质、非结构化的海量信息资源中,快速有效地发掘其中蕴含的具有巨大潜在价值的有用信息,已成为当前需要迫切解决的重要问题。而信息检索则是应对这种挑战的关键技术,对于人们有效利用网络信息起着至关重要的作用,在最近二十年的时间里得到了众多的关注和长足的发展。传统的信息检索模型已得到了广泛的应用,并且取得了极大的成功。但目前的信息检索研究仍然面临诸多困境,缺乏有效的解决办法。面对伴随着网络、计算机存储和运算设备日新月异的发展而日益庞大的网络信息资源,人们对信息检索技术的要求也日益提高,探索更为有效、性能更好的信息检索模型必将是研究的热点。我们以随机过程理论为基础,将图模型应用于信息检索领域,区别于传统的信息检索建模方式,借助于Markov网络的表达能力和学习机制对数据集中的相关性信息进行建模,在此基础上构造文档模型,在统一框架下实现通用的信息检索模型和文本分类模型。本文的创新工作主要有以下几个方面:(1)基于Markov网络表示的信息检索模型的研究信息检索中查询和文档相关的度量归根到底还是以词为单位,因此,词在检索中的重要性度量对检索的性能至关重要。但大多数模型在建模时,假定了词的重要性不依赖于查询,且词与词之间被认为是独立的,这使得检索的性能受到了极大的影响。此外,大部分信息检索模型都是基于查询这一端,有相当数量的工作对查询进行分析并提出了诸如查询扩展、相关性反馈等方法。但是,仅仅对查询进行分析是不够的,信息检索的目标是找到和查询相关的文档,这需要同时对文档进行分析以获得更好的文档模型并用于信息检索。我们针对上述问题,利用Markov网络对词之间的相关性信息进行建模,构造了基于Markov网络表示的信息检索模型,探索相关性信息对信息检索模型性能的影响。在模型具体实现时,根据对Markov网络结构分析的程度,定义信息检索模型的构造规则,并遵循这组规则进行建模。所构造的模型具有很强的表达能力,首先,模型可以表示相关性信息,能获得更好的文档模型,并使得相关性信息和检索模型在统一的框架下建模;其次,模型能为多种特征函数建模,从而适应信息检索任务的具体特性。实验结果表明,基于Markov网络表示的信息检索模型可有效提高检索的性能。(2)基于Markov网络表示的查询扩展及相关反馈模型的研究词在检索中的重要性度量对检索性能有极大的影响,我们因此提出了“词的重要性”的概念。利用Markov网络表示词之间的相关性,使得词的重要性不仅包含了词在检索和查询中的重要性,还包含了词之间的相关性信息,对词的重要性的度量也更为准确。在此基础上,我们构造了基于Markov网络表示的查询扩展模型、文档扩展模型和相关反馈模型。通过计算词的重要性,选择与查询最为相关的信息对查询进行扩展,在基于Markov网络表示的信息检索模型的基础上对重要的相关信息进行加权,可避免查询扩展模型和相关反馈模型出现“主题漂移”,并保证上述模型的检索性能。实验结果表明,查询扩展模型和相关反馈模型较好地提升了信息检索模型的性能。(3)基于Markov网络表示的文本分类模型的研究针对朴素贝叶斯模型和向量空间模型的特征独立性假设,将特征之间的相关性信息引入到文本分类模型中,提出了基于Markov网络的文本分类模型和基于Markov网络表示的文本分类模型。基于Markov网络的文本分类模型首先为解决朴素贝叶斯模型的先验概率易受到数据集分布的影响这一问题,给出了一种新的先验概率估计方法。其次,利用特征之间的相关性信息修正特征的重要性,将相关性信息加入到文本分类模型中。基于Markov网络表示的文本分类模型,将文档表示为Markov网络,为特征之间的相关性信息建模,并通过计算Markov图之间的距离进行分类。实验结果显示这两种模型均可提高文本分类的性能。
其他文献
论文针对江苏省无锡地区驾驶员培训行业的现状进行了分析,驾驶培训机构在增加,而学员量在不断减少,优胜劣汰依然是驾培市场的趋势。论文就如何提升驾培企业核心竞争力,结合实
本文阐述了设置剩余电流火灾监控系统应遵循的原则,保护级数及动作值得确定。建议以报警为主,作用于开关跳闸为辅,并对保护的设置范围与设置位置、监控内容和保护的选择性配合等
自组装方法制备纳米生物传感器时,常利用聚电解质(如PDDA,poly(diallyl-dimethyl ammonium chloride))与纳米材料和酶的相互作用。但是聚电解质易导致纳米材料团聚,或损害酶的活
“图灵测试”的创意者,为人工智能的研究提供了开创性的构思,他相信,机器可以改变自己的指令。对ACE(自动计算机)的广泛宣传,引起了英国工业界的好奇心。1946年11月7日,《工业化学》
从超长不设缝结构的综合裂缝控制措施入手,结合某实际工程实例,对设计中遇到的一些基本问题进行了分析与探讨,提出了合理的超长不设缝结构的设计与施工建议。
<正>作为当下社会最为重要的文化消费品,电视剧在创造巨大市场价值的同时,也必然承担着反映现实生活、承载文化内涵与体现主流价值观的任务。从这个层面来看,电视剧创作与文
针对现有机械设计课程中出现的学生主动性不强,设计内容如出一辙,手工绘图实用性不强,设计过程繁杂等问题,提出了以企业应用为主的教学改革。文章从教学方法、设计手段、教学
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
按照磁轴承的应用发展需求对磁轴承的最新研究进展进行了阐述,通过比较不同及同类别磁轴承的优劣及典型建模方法,对影响磁轴承系统性能的两大关键问题——结构和悬浮力建模方
表扬是对学生的肯定,对学生的健康成长具有积极而重要的作用。教师应适当地、巧妙地运用正能量的方法,去欣赏学生、激励学生,使学生在表扬和鼓励中获得自信,充满成就感,快乐地学习