基于VSM的权重改进文档相似度算法研究

来源 :软件 | 被引量 : 0次 | 上传用户:knh1988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
向量空间模型是以索引项权重为核心的模型,索引项权重对文本分类、检索的效果起着决定性的作用。文中提出了一个基于关键词的权重改进传统向量空间模型的权重算法。基于改进索引项权重的向量空间模型除了考虑原有索引项权重还考虑了文档中关键词的权重。通过特定领域FAQ的检索测试结果表明,改进的算法很大程度上提高了检索的查准率、查全率。
其他文献
当前我国各个行业领域发展都比较迅速,报社领域的改革势在必行,随着融媒体的发展,受到互联网媒介因素的影响,报社编辑的发展也面临着诸多挑战,转型之路已是必要的选择。本文
建立了一种用高效液相色谱测定氟环唑的定量分析方法.采用C18 HPLC色谱柱,以乙腈/水(85/15)为流动相,选择205nm为检测波长进行检测.结果表明本方法的标准偏差为0.14%,变异系
随着信息时代的到来,各行各业都在寻求"快捷键",语文教学也是如此.如何让学生尽快地理解课文内容、高质量的完成教学任务,是摆在每个老师面前最直接的问题.多媒体的出现,让我
针对向量空间模型方法忽略词语语义以及词语相互间结构关系,没有考虑词语表达的实际意义的缺点,提出一种新的文本相似度计算方法,该方法把语义相似度的计算融入到基于向量空
滚动接触疲劳试验机主要用于研究材料在模拟工况条件下的接触疲劳性能。本文就国内外已经实际应用的滚动接触疲劳试验机的现状及接触疲劳试验基本工作原理加以介绍,并就滚动
现有施工监理模式强调事后监督和检查,是一种被动监控模式。在全面分析PDCA循环及现代质量管理理论的基础上,提出了主动监控模式,并对该模式进行了机理分析。该模式是一种基
采用超声辅助喷雾热解法,在400℃玻璃衬底上,制备了一系列不同锶掺杂量的氧化锌(SZO)薄膜,通过XRD、SEM、EDX、UV-Vis吸收谱和PL对样品的结构、表面形貌、元素组成和光学特性进
对西部2007-2009级高等艺术师范类学生的就业心理进行抽样调查,分析了西部高等艺术师范生就业心理的总体特征、各年级以及农村生源与城市生源的就业心理差异。指出艺术师范类
特应性皮炎(AD),是一种与遗传相关、免疫异常,具有湿疹样损害的变态反应性皮肤病,常伴高IgE、哮喘等,亦称异位性皮炎、遗传过敏性皮炎.AD是一种"现代病",由于环境污染及花粉
针对北方村镇生态景观中农田生态景观和居住区生态景观中存在的一系列问题,以及北方村镇中废物再回收利用率不高,生态景观评价指标不确定、管理者意识不强、组织管理不到位等