面向信息检索的近邻语言模型

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:WANGZHHUO
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面向信息检索的语言模型对单篇文档构建语言模型,存在较严重的数据稀疏问题。该文认为利用文档的近邻信息能够更合理地反映词在文档中的分布,有助于数据稀疏问题的解决,因此将文档的近邻信息加入语言模型的平滑算法中,提出近邻语言模型。该文在TREC评测的典型文档集美国能源署文件(DOE)和《华尔街日报》(WSJ)数据集上测试了在不同近邻选择来源上近邻语言模型的性能。实验结果表明,近邻语言模型对检索性能有一定的提升。
其他文献
人盡其才,  地尽其利,  物尽其用,  货畅其流。      1893年,孙中山草拟了8000字的《上李鸿章书》,从四个方面闸述了他的治国大策。他认为,“欧美各国富强之法”,“不尽在于船坚炮利,垒固兵强,而在于人能尽其才,地能尽其利,物能尽其用,货能畅其流。此四事者,富强之大经,治国之大本也。”   “所谓人能尽其才者,在教养有道,鼓励有方,任使得法也。”孙中山指出,欧美各国十分重视人才的培养
在第十二届全国人民代表大会第一次会议的闭幕式上,习近平主席发表讲话并再提“中国梦”。“中国梦”以其丰富的意蕴和可亲可近的奋斗目标再次引发了人们的热议。  “中国梦”与解放思想  实现“中国梦”要求我们冲破落后思想和错误观念的障碍、束缚甚至误导,在解放思想中建立真正的道路自信、理论自信、制度自信。我们要围绕如何实现“中国梦”,开展更高层次、更深程度、更广领域的新一轮思想大解放,使全党全国人民进一步更
该文探索了基于树核函数的中文语义角色分类,重点研究如何获取有效的结构化信息特征。在最小句法树结构的基础上,根据语义角色分类的特点,进一步定义了三种不同的句法结构,并
"N+V"型结构能够构成定中偏正、状中偏正和主谓三种不同结构的短语。基于搜狗日志语料,对"N+V"型主谓短语从其各组成要素特点、音节特点和句法功能三方面进行研究,着重从语义方面对