【摘 要】
:
随着用户输入查询的自由度越来越高,导致已有半结构化数据检索模型无法满足用户需求。针对该问题,提出一种新的半结构化数据检索模型。在对原始查询进行分词后,把得到的词条
【机 构】
:
复旦大学计算机科学技术学院,上海市智能信息处理重点实验室
【基金项目】
:
国家自然科学基金资助项目(61472088,61473092)
论文部分内容阅读
随着用户输入查询的自由度越来越高,导致已有半结构化数据检索模型无法满足用户需求。针对该问题,提出一种新的半结构化数据检索模型。在对原始查询进行分词后,把得到的词条作为基本元素,通过特征方程给每个词条设定对应权重,使用基于朴素贝叶斯的内容属性匹配方法进行内容属性匹配概率设定,并采用基于编辑距离的字符串相似度算法改善检索质量。从某商业搜索网站的查询日志中随机抽取真实的查询记录,人工为这些查询标注正确答案,从而做性能评估。实验结果表明,与层次语言模型、半结构化数据概率检索模型相比,该模型能有效提高半结构化数据的
其他文献
在频谱共享环境下,基于译码转发协议和最佳中继选择方案提出一个含有直射信道的两跳中继选择通信系统,并对该系统进行性能分析。系统利用半双工的通信模式,信源及各个中继节点均
提出一种基于本体的Deep Web数据源发现方法,采用网页分类、表单内容分类、表单结构分类方式,确定符合某领域的DeepWeb查询接口。在网页分类和表单内容分类中引入本体的半自
线性递归序列的容错综合问题在流密码分析领域具有重要的理论分析与应用价值。利用伽罗华域上2个变元多项式F[x,Y]的齐次理想刻画齐次关键方程的解空间,通过齐次关键方程解决线
在块正交匹配追踪算法中,候选集匹配原子块的选择策略对信号重建具有重要作用,但是该算法在迭代选择原子块的过程中,每次选择当次最优迭代的原子块,并不能保证最终迭代性能是最优
目的观察益气补肾颗粒对髓系微小残留白血病患者的3、5年持续完全缓解率及生存率的影响。方法本研究为多中心随机双盲对照临床研究,治疗组予益气补肾颗粒,对照组予安慰剂炒麦