基于文本集密度的特征选择与权重计算方案

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:fengdl0040
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息检索的向量空间模型中,文本被形式化表示为由词语权重组成的向量.因此如何让这种向量尽量准确的有效的表示出文本内容一直是该模型中的基础性问题.在这篇论文中,我们提出了一种基于文本集密度的特征词选择与权重计算方案的方法.它是一种使用词对文本集密度的贡献衡量该词的价值的方法.使用这种方法,我们能找出不损失文本有效信息的最小特征词语集,并且创造出更为合理权重计算方案.在文中还用了一种新的衡量权重好坏的标准--元打分法,来证明提出的方法是有效的.
其他文献
<正>~~
5月12日14时28分,地震突袭,新诗路咨询管理有限公司办公大楼开始剧烈晃动起来,在没有任何心理准备的情况下,恐怖的一幕发生了。新诗路公司几十名员工顿感脑袋一片空白,大家都及时
<正>~~
<正>~~
<正>~~
我很庆幸自己是个幸运儿,因为刚一入行就认识了美容路上的第一个朋友——雪罗兰。而且,随着美容知识的不断积累和对雪罗兰产品的不断了解,我的顾客也被我引导和影响着爱上了雪罗
究竟他爱我吗?我们是否面临分手边缘呢?我们…正拍拖的朋友总会面对一大堆千奇百怪的感情疑团。想知你俩的爱进展到什么程度吗?
长期以来尚未有完整的藏文操作系统,原因是藏文文字的特性要求特定的文字处理.本文基于ISO/IEC 10646的藏文字符集标准,结合藏文正字法要求,详细分析了藏文操作系统实现中的
每年一度的计算语言学学会年会(Annual Meeting of ACL)是计算语言学界的盛会,也是计算语言学和自然语言处理领域最有影响的学术会议,ACI。每年发表的论文都反映了这一领域的最新
<正>~~