基于词序方法的文本相似度计算模型

来源 :情报学报 | 被引量 : 0次 | 上传用户:resiaton
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对传统向量空间模型对文本相似度的计算未考虑词序导致偏差的问题,提出使用马尔可夫模型的状态转移矩阵、两两文本的最长公共子序列以及它们的所有公共子串信息来描述词序信息,在此基础上提出一种将马尔可夫状态转移矩阵、最长公共子序列、公共子串和TF-IDF相结合,兼顾词序和词频信息的文本相似度计算方法,并使用英文TREC-9的部分数据集对基于词序方法的文本相似度计算方法进行了测试。试验结果表明:在同等分词及评估条件下,基于词序方法的文本相似度计算结果的准确率相对于单纯采用传统的基于向量空间模型的TF-IDF方法提高
其他文献
SiCp/A1复合材料具有质量轻、导热性能好、高强度、高比模量、热膨胀系数低、耐磨损等优点,在空间轻型反射镜领域有良好的应用前景。在SiCp/A1复合材料表面化学镀镍可以改善其抛
采用DSC技术研究了SIMA法制备半固态AZ91D镁合金坯料过程中形变率与共晶熔化激活能的关系。结果表明:形变AZ91D镁合金内部存在位错、孪晶缺陷,合金的共晶熔化激活能随变形率的
药物分子设计技术为生物领域前沿技术的一项,本研究以Web of Science中1998~2007年收录的药物分子设计有关的1302篇论文为研究对象。研究了论文的国家分布情况,发现美国及欧洲
空间信息获取手段的多样性与数据处理的严密数学法则约束不变性,是航空航天新技术发展伴生的新矛盾。例如推扫式、变角摆头凝视、变焦距成像,航空平台动姿态、大角度飞行,高
借助SEM和差热分析(DTA),研究了Ti48Al2Cr2Nb合金与Y2o3、Zro2(Y2O3稳定)、ZrO2(MgO稳定)和锆英砂4种陶瓷耐火材料界面反应后金属侧的显微组织,并测定了Ti48Al2Cr2Nb合金与Y2O3、ZrO2