基于差异-相似矩阵的文本降维方法

来源 :计算机应用 | 被引量 : 1次 | 上传用户:pcfanzb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于文本文档数量多、词量大,形成的文档空间维度高,很多自动文本分类算法不能直接有效地发挥作用。基于差异—相似矩阵(DSM)的方法在很大程度上降低了文档空间的维度。已经分好类的文集经过预处理后被表示成特征项—文档矩阵,再转化为差异—相似矩阵,其中同类文档采用相似项描述,而异类文档则采用差异项描述。通过对差异—相似矩阵的处理,最终得到维度较低的文本特征集,并同时生成分类规则。实验说明,对于大规模文集,DSM方法能在保持良好的分类质量的同时,获得较高的属性降维率和样本降维率。
其他文献
交叉认证作为PKI服务的一个方面,能够有效地扩展PKI的信任范围。介绍了两种常见的交叉认证技术,并就如何在保证自身安全的情况下实现不同信任域证书资料的共享提出了一种解决方案。
基于虚拟组织优势,结合农业技术属性和农业技术创新活动现状,提出建立旨在农业技术研发的虚拟组织构想.进一步分析了虚拟组织农业技术创新活动优势,能够实现龙头企业和研发机
研究了如何利用神经网络解决软件关键模块的识别问题。首先利用交叉确认改进了级联相关算法,设计了多层前馈神经网络作为模式分类器,以软件模块的复杂性度量作为特征向量识别软件中的关键模块。最后以自行开发的维修性分配与预计(MAP)软件为例说明了采用改进的级联相关算法确定软件关键模块的优势。
《野草》与《老人与海》虽是不同国度不同民族不同时代不同作家的作品,却在内面精神上有着出人意料的惊人的一致性和共通性。本文试图揭示出其中相通性特质,以此给人某些方面的
对管式间接蒸发冷却空调机组进行了实验研究。分析了进口空气干球温度、相对湿度对空调机组降温及冷却效率的影响,为提高对管式间接段蒸发冷却空调机组性能的了解具有一定的
畜牧业是久治县主导、支柱性产业,畜牧业的发展对社会稳定,增加牧民群众收入,使广大牧民群众脱贫致富,促进民族经济发展具有重要意义.因此,发展久治县民族经济应当首先加快畜