文本聚类中的改进特征权重算法

来源 :工程数学学报 | 被引量 : 0次 | 上传用户:c410504
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文提出了一种新的基于词频和文档频率的特征词权重计算方法ETFC.首先构造了新的函数作为特征词的类别区分度,加强了低文档频数特征词的类别区分能力.然后运用k-means算法进行聚类实验.结果表明,改进后的权重算法ETFC比现有的权重算法TFIDF和TFC在聚类纯度和算法的稳定性方面均有较大提高,从而表明改进策略是可行的.
其他文献
中国特色文论体系建构问题,这是整个中国语言文学研究界普遍关注的话题之一。如果我们回顾一下以文艺批评理论“建设”或“创新”为主题的学术研讨会,那就不难看出学术界自20
日本一家公司研制成一种新型钨合金 ,具有抗腐蚀能力强和强度高以及加工性好等优点。钨虽然是所有金属中熔点最高的金属 ,但它有一个特殊的缺点 ,就是抗腐蚀性能不理想。为了
目的探讨不同剂量1,25二羟基维生素预处理对局灶性脑缺血再灌注损伤的保护作用及机制。方法将60只SD雄性大鼠随机分为假手术组、模型组和VD30.5、1.0、1.5μg/kg预处理组,比
广播星历误差直接影响卫星定位的精度,对GPS和GLONASS的广播星历精度进行对比分析,可为组合定位中观测值定权提供依据。为此,以NGA和IAC精密星历为参考,分析了连续两周GPS和G
<正>纸之精致华美,尺幅较小者,叫"笺"。花笺是古代精致华美的笺纸,又称"彩笺",一般选印有各种纹样,用不同颜色的纸制成。文人雅士往往自制花笺纸,以标榜其个性,高雅而不入俗
期刊
为了将不同语言背景的移民融入美国社会,美国在不同时代采取了不同的双语教育政策,进入20世纪,受多语多文化的社会环境和国内外政治经济的影响,“唯英语”和“双语”之争一直
从不同的角度建立了附息国债的定价模型,并从数学上证明了这一模型的一些性质,进而有助于理解附息国债的价格和到期收益率之间的关系.
从商业地产不同于住宅地产的特殊性入手,以此为切入点提出适宜商业地产实际情况的成本管理措施,旨在为我国商业地产的财务成本管理模式的不断完善尽些许绵薄之力。 From the
采用气压计基点测定法按标准要求在主要路线上布置了29个测点对涟溪煤矿通风系统进行了阻力测定,本次测定相对误差为4.09%,测定结果表明:涟溪煤矿通风难易程度为"中等",阻力
将已诱导出的大蒜愈伤组织继代培养30天后接种于25种附加不同6-BA和NAA的分化培养基中,结果表明:附加2~4mg/L的6-BA培养基诱导效果最好.低浓度的NAA对诱导有促进作用.用6种培