论文部分内容阅读
在信息检索的向量空间模型中,文本被形式化表示为由词语权重组成的向量.因此如何让这种向量尽量准确的有效的表示出文本内容一直是该模型中的基础性问题.在这篇论文中,我们提出了一种基于文本集密度的特征词选择与权重计算方案的方法.它是一种使用词对文本集密度的贡献衡量该词的价值的方法.使用这种方法,我们能找出不损失文本有效信息的最小特征词语集,并且创造出更为合理权重计算方案.在文中还用了一种新的衡量权重好坏的标准--元打分法,来证明提出的方法是有效的.