【摘 要】
:
近几年来,随着网络技术和数据库技术的迅速发展和普及,人们可以快速、方便地获取和存储大量数据。在这些数据中,百分之八十的数据都是以文本方式存在的。目前,怎样从大规模文
论文部分内容阅读
近几年来,随着网络技术和数据库技术的迅速发展和普及,人们可以快速、方便地获取和存储大量数据。在这些数据中,百分之八十的数据都是以文本方式存在的。目前,怎样从大规模文本数据中准确、快速地获取有用的信息已成为一个急待解决的问题。在此背景下,数据挖掘技术应运而生,文本聚类技术作为数据挖掘技术的重要分支之一,已成为近几年来的研究热点。由于文本数据是非结构化的,所以在对文本数据进行聚类之前,文本数据要通过分词、停用词处理、特征选择、权重计算和数学模型表示等一系列预处理技术转换成结构化的形式。本文主要对传统的自组织特征映射神经网络(SOFM)算法应用在文本聚类中给出两点改进,使其更加适合于大规模文本数据。一是由于传统的SOFM算法的随机选取网络初始连接权值可能会导致训练的结果聚为一类,针对这一缺陷,给出了基于初始连接权值改进的SOFM文本聚类算法。根据给出的选取初始连接权值的方法可以让初始连接权值很接近文本数据的输入模式,以此提高聚类结果的精度同时加速聚类收敛;二是针对由向量空间模型表示的文本数据的高维性带来的数据稀疏性和维数灾难问题,给出了基于主成分分析(PCA)方法的SOFM文本聚类算法。相对于特征选择方法,该算法在降维方面主要考虑其能够保留适量的有用的特征词语,不会丢失重要信息。通过仿真实验对比,该算法能够进一步提高算法的聚类准确率而且加快了聚类速度。
其他文献
金属络合物储氢材料因其高容量储氢且具有一定的可逆性而备受关注,尤其是M-N-H(M是指Ⅰ-Ⅳ族和一些过渡族金属)系列储氢络合物引起人们关注。目前,对M-N-H系络合物的储放氢反
对发动机缸盖用Al-6Si-3.5Cu-0.3Mg合金进行精炼、变质和晶粒细化等熔炼工艺研究。结果表明,Al-6Si-3.5Cu-0.3Mg合金采用旋转喷吹精炼处理工艺可取得良好的精炼效果,并且静置
近年来,经济全球化的浪潮席卷各行各业,航空公司在迎来发展机遇的同时,也面临着日愈激烈的市场竞争。在市场竞争的压力下,如何先于竞争对手对潜在高价值旅客进行挖掘和预测,将其向高价值的趋势进行转化,已经成为了航空公司的主要关注点。如今,民航系统积累了大量的旅客订座记录,通过信息化管理的方式对这些数据加以整理、利用,发现民航旅客的订票行为规律,开展旅客价值类别的划分和预测,对于航空公司提升核心竞争力、实现
研究了构建基于Matlab Web应用的远程数学实验教学系统的方法和关键技术,应用Java Web技术和Matlab Builder JA创建了数学实验教学环境,实现了一个在线学习的平台,在Web上运
井下电子压力计系统由温度压力传感器、存储器、微处理器这些精密的电子元件,以及实时数据转换电路、电子信号放大电路、LC振荡电路组成。在减震结构上专门设计了托筒的外围
在大多数科学领域,数据的测量是随着时间的推移而进行的,这些观察结果使得人们收集到一系列有序的数据,称为时间序列,时间序列分类是时间序列数据挖掘中一项重要的研究内容。
采用铸造法制备了Mg-8Gd-0.5Zr合金,对合金分别进行固溶处理(T4)及固溶+时效处理(T6),在应变速率0.0020.1 s-1、变形温度350500℃、最大变形量50%条件下,对不同热处理后的合金进
目的:探讨甲状腺癌颈淋巴结清除术并发乳糜瘘的发生原因、治疗方式、临床表现及防治策略.方法:选取2013-05/2015-11黑龙江省七台河市人民医院收治的行甲状腺癌颈淋巴结清除术
目的:研究不同强度运动预适应(EP)方案对力竭大鼠线粒体生物发生、融合分裂以及呼吸功能完整性的保护作用之间的差异性。探讨EP对力竭大鼠心肌组织中过氧化物酶体增殖物激活受
目前,放射治疗已经成为治疗恶性肿瘤的主要手段之一,而直线加速器作为放射治疗的主要设备,其输出剂量准确性直接关系到放射治疗结果的成败。因此对直线加速器辐射场的质量保