关于词频倒排文档频公式的修正

来源 :中国农业大学 | 被引量 : 0次 | 上传用户:goodcat13579
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
向量空间模型(VSM)是文本信息处理的经典模型,它把文本用向量表示,以特征项的权值作为分量,这个架构很大程度上提高了信息处理的性能。模型中广泛用到的计算特征项权值的公式是标准化的词频倒排文档频(TFIDF)公式。 研究发现,向量空间模型并不是一个完善的模型,其最大的缺陷是假设特征项之间是相互独立的。这使得用向量空间模型表示文本集时,很可能造成信息遗漏或冗余。此外TFIDF公式同样不够准确,它简单地认为特征项权值与包含该特征项的文档数成反比,而没有考虑特征项分布的比例情况。 本文使用中文信息处理工具从中文文本集中抽取词条,并通过知网系统把词条空间映射到概念空间。用概念代替词条作为特征项的方法间接达到了降维目的,并在很大程度上消除了向量空间模型特征项之间的相关性。 文本的一个主要研究内容是对TFIDF公式进行修正。基于分布比例高的特征项具有较高的贡献度和特征项在文本集中分布越离散则代表性越强这两方面的考虑,本文构造了一个平衡因子BF,并将其加权到TFIDF公式中,得到了修正后的公式M-TFIDF。简单数值例子和中文文本聚类实验都表明,M-TFIDF公式保留了TFIDF公式的优点并弥补了其缺陷,提高了向量空间模型对文本集的表示性能。
其他文献
统计学中的一个重要问题就是概率密度估计,不管是在理论研究方面还是实际应用方面,概率密度估计对于解决统计学中的大部分问题都有非常重要的帮助。过去用于密度估计的方法主要
图中的最大团问题与最大独立集问题均属于图论中经典的NP-完全问题,该类问题所具有的固有困难,已使其普遍有效算法的寻求变得希望渺茫。但由于该类问题深刻而广泛的理论及应用
自适应网格方法是一种用来解决微分方程近似解的重要计算方法,把他应用在边界层和内层问题的近似解上是非常有效的,这里我们研究的是自适应重分布网格方法即移动网格法。 本
本课题研究来源于国家自然科学基金项目(70471045):一类上层供应商主导的两层供应链协调问题的研究。 供应链管理的重要内容之一是协调供应链中的各个组成部分,因为供应链是