基于语义的文档特征提取研究方法

来源 :计算机科学 | 被引量 : 0次 | 上传用户:sdg058229
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文文本特征词选取是文本处理的重要方面,对文本分类有重要影响。现有的文本特征提取方法存在生成特征向量维数高、依赖训练集、忽略低频关键词等不足。利用《同义词词林》计算词语之间的语义距离,通过聚类算法筛选类别的主题相关词,最后通过信息增益算法从主题相关词中选取特征词。以宏F值和微F值为评价指标,通过有效性实验和对比实验表明,该方法的文本特征选取效果优于其他经典算法。
其他文献
在物联网、工业监控等系统中,庞大规模的传感器每时每刻都在产生大量的数据。实时数据库在处理高时效性数据方面具有较强的优势,但是在处理大规模传感器数据方面存在着存储量
视频专题演化分析有助于从海量的视频数据中发现有价值的模式。研究了基于聚类的视频专题演化分析方法,首先基于二部图对视频的视觉相似性进行分析;在此基础上,为增强同一专
针对基于监督的入侵检测算法在现实网络环境中通常面临的训练样本不足的问题,提出了一种基于纠错输出编码的半监督多类分类入侵检测方法。该方法综合cop-kmeans算法的半监督思想,挖掘未标记数据中的隐含关系,扩大有标记正常网络数据的数量。该算法首先采用SVDD计算入侵检测各类别的可分程度,从而得到由不同子类构成的二叉树;然后分别对二叉树的各层节点进行编码并形成层次输出编码,得到最终的分类器。实验表明,
将算子引入外逆P-集合的研究中,拓宽逆P-集合的应用领域。把外逆P-集合的理论应用于数字图像的信息伪装研究,建立了f信息伪装、g信息伪装、双信息伪装以及信息伪装度量的概念
由于应用层组播技术依靠终端主机转发组播数据,任意中间节点的退出都将造成系统的稳定性问题。同时,应用层组播技术对延时有严格的要求。为了提高应用层组播系统的稳定性和数
在大规模图数据的分布式处理中,往往需要将图数据进行划分并放置在不同的节点上。如果数据划分得不均衡,那么部分节点可能会成为分布式系统的瓶颈。为了提高图数据划分的均衡
为了快速且高效地找出干扰源或非法电台,提出一种寻找干扰源位置的定位方法。该方法通过在待监测区域设置网格化分布的多个监测点来检测获取接收功率的大小,从而推测出干扰源
由于广泛的实用价值与理论价值,高动态范围成像(HDRI)技术成为图像处理领域的一个研究热点,如何检测及去除成像过程中产生的干扰影像(即"鬼影")也引起了研究者的广泛关注。将鬼影检
推理机在故障诊断专家系统中起着非常重要的作用.提出普通规则、模糊逻辑和模糊神经网络推理相结合的综合智能推理机应用于故障诊断专家系统.综合智能推理机既能提高诊断推理
针对某型机载雷达信号发生器信号样式单一、载波频点对应的脉冲宽度和重复周期值较为有限的问题,利用CPLD技术重新制作信号发生器的信号调制板,增加了脉冲宽度值、重复周期值