面向信息检索的近邻语言模型

来源 :中文信息学报 | 被引量 : 0次 | 上传用户：WANGZHHUO

【摘要】

：

面向信息检索的语言模型对单篇文档构建语言模型,存在较严重的数据稀疏问题。该文认为利用文档的近邻信息能够更合理地反映词在文档中的分布,有助于数据稀疏问题的解决,因此

【作者】

：

韩中元李生齐浩亮杨沐昀

【机构】

：

哈尔滨工业大学计算机科学与技术学院,黑龙江工程学院计算机科学与技术系

【出处】

：

中文信息学报

【发表日期】

：

2011年1期

【关键词】

：

信息检索语言模型近邻信息 information retrieval language model neighbourhood information

【基金项目】

：

国家自然科学基金重点资助项目（60736044）国家自然科学基金面上资助项目（60873105）, 黑龙江省教育厅科学技术研究项目（11541287）, 哈尔滨市科技局青年创新人才项目（2009RFQXG213）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

面向信息检索的语言模型对单篇文档构建语言模型,存在较严重的数据稀疏问题。该文认为利用文档的近邻信息能够更合理地反映词在文档中的分布,有助于数据稀疏问题的解决,因此将文档的近邻信息加入语言模型的平滑算法中,提出近邻语言模型。该文在TREC评测的典型文档集美国能源署文件（DOE）和《华尔街日报》（WSJ）数据集上测试了在不同近邻选择来源上近邻语言模型的性能。实验结果表明,近邻语言模型对检索性能有一定的提升。

其他文献

孙中山治国大策

人盡其才，　　地尽其利，　　物尽其用，　　货畅其流。　　　　 1893年，孙中山草拟了8000字的《上李鸿章书》，从四个方面闸述了他的治国大策。他认为，“欧美各国富强之法”，“不尽在于船坚炮利，垒固兵强，而在于人能尽其才，地能尽其利，物能尽其用，货能畅其流。此四事者，富强之大经，治国之大本也。”　　 “所谓人能尽其才者，在教养有道，鼓励有方，任使得法也。”孙中山指出，欧美各国十分重视人才的培养

期刊

孙中山治国李鸿章于船

实现“中国梦”要解放思想

在第十二届全国人民代表大会第一次会议的闭幕式上，习近平主席发表讲话并再提“中国梦”。“中国梦”以其丰富的意蕴和可亲可近的奋斗目标再次引发了人们的热议。　　“中国梦”与解放思想　　实现“中国梦”要求我们冲破落后思想和错误观念的障碍、束缚甚至误导，在解放思想中建立真正的道路自信、理论自信、制度自信。我们要围绕如何实现“中国梦”，开展更高层次、更深程度、更广领域的新一轮思想大解放，使全党全国人民进一步更

期刊

解放思想中国梦全国人民代表大会错误观念闭幕式习近平自信

基于树核函数的中文语义角色分类研究

该文探索了基于树核函数的中文语义角色分类,重点研究如何获取有效的结构化信息特征。在最小句法树结构的基础上,根据语义角色分类的特点,进一步定义了三种不同的句法结构,并

期刊

语义角色标注语义角色分类树核semantic role labeling semantic role classification tree kern

搜索引擎日志中“N＋V”型主谓短语研究

＂N＋V＂型结构能够构成定中偏正、状中偏正和主谓三种不同结构的短语。基于搜狗日志语料,对＂N＋V＂型主谓短语从其各组成要素特点、音节特点和句法功能三方面进行研究,着重从语义方面对

期刊

搜索引擎“N+V”型结构主谓短语句法功能search engine ＂N＋V＂ structure subject-predicate phrase

面向信息检索的近邻语言模型

其他学术论文