【摘 要】
:
随着互联网技术的发展,文本数据呈现爆炸式增长趋势。自然语言是当今最亟待开发的数据形式之一。通过自然语言处理技术,可以让计算机理解人类的语言,在海量文本数据中找到对用户有用的数据。人类的语言非常丰富,文本数据转化为数学向量之后往往是高维且稀疏的,这加大了文本特征选择的难度,因此如何设计文本特征选择算法显得非常重要。文本分类和聚类都是根据文本语义的不同,将不同的文本划分到不同的类别。但是,分类是一种有
论文部分内容阅读
随着互联网技术的发展,文本数据呈现爆炸式增长趋势。自然语言是当今最亟待开发的数据形式之一。通过自然语言处理技术,可以让计算机理解人类的语言,在海量文本数据中找到对用户有用的数据。人类的语言非常丰富,文本数据转化为数学向量之后往往是高维且稀疏的,这加大了文本特征选择的难度,因此如何设计文本特征选择算法显得非常重要。文本分类和聚类都是根据文本语义的不同,将不同的文本划分到不同的类别。但是,分类是一种有监督的算法,在训练过程中可以利用样本的标签信息优化特征选择;而聚类是一种无监督技术,这使得特征选择更加困难,因此,针对文本聚类的特征选择研究相对更少。另一方面,文本数据往往是大规模的,因此本文主要研究如何能够兼顾算法的高效率与稳定性。本文提出一种基于启发式搜索算法的文本特征选择方法,是一种无监督方法,适用于文本聚类,另外对基于K划分的文本聚类算法提出改进,增强聚类稳定性。本文的主要创新点如下:(1)提出了改进的二进制粒子群(Binary Particle Swarm Optimization,BPSO)算法。本文分析了二进制粒子群中的位变化概率,在Sigmoid函数的基础上调整公式,提出了基于全局—局部搜索的二进制粒子群算法(Global-to-local Searching-based Binary Particle Swarm Optimization,GSBPSO),使得粒子群算法在算法前期有较强的全局搜索能力,而在算法后期有较强的局部搜索能力,即前期变异概率较大,后期收敛能力较强。将GSBPSO与BPSO等算法在标准测试函数上做对比,证明了GSBPSO算法的优越性。(2)设计了基于GSBPSO算法的中文文本特征选择算法。在本文中,首先运用文档频率(Document Frequency,DF)进行特征粗选,再用GSBPSO算法进行特征再选择,进一步减少特征冗余。本文在已有的研究基础上,对适应值函数提出改进,引入小批量随机样本法,提高算法效率,使得改进后的适应值函数更适用于大规模文本数据。(3)提出了改进的基于k划分的文本聚类算法。文本数据具有方向性数据的特征,传统欧氏距离对于文本数据不适用。球面K-means算法(Spherical K-means,SKM)已被证明是一种有效的文本聚类方法,但是SKM算法的初始聚类中心是随机生成的,并且SKM对初值敏感,使得算法不够稳定。因此本文结合二分K-means算法的思想,提出二分SKM算法,提高聚类的稳定性。在中文文本数据集上的实验结果表明,本文提出的特征选择算法能有效减少特征冗余,提高聚类精度,本文提出的聚类算法能提高文本聚类的稳定性。
其他文献
广作家具受民族文化、地理环境、时代特征等不同因素的影响,在继承中国传统家具的基础上,大胆吸取了多种欧洲艺术风格和技巧,形成了一种造型大气、工艺精巧、装饰华丽的风格。广作家具这种兼容并蓄、开放创新的特色,具有极高的艺术价值和研究价值。本文首先针对广作家具装饰纹样进行收集、整理及分析,并以梅花纹为典型案例进行系统研究,分析梅花纹在椅子使用部位的应用,总结梅花纹的装饰特征。并以此为基础,结合现代社会的时
农业机械化和农机装备是转变农业发展方式、提高农村生产力的重要基础,是实施乡村振兴战略的重要支撑,而农机装备实现信息化和智能化是提升农业机械化水平的重要途径。为实现农机装备的智能设计及整机作业行为与性能仿真,本文通过对融合机器视觉的农机装备关键部件的装配行为研究、开发收获作业仿真平台并进行不同条件下的收获仿真试验研究,对农机装备的智能仿真行为进行了研究,主要完成的研究工作有:1)面向对象的农机装备行
近些年来在超声换能以及微驱动定位领域中,压电陶瓷材料由于其特殊性能在这些领域发挥着越来越重要的作用。其中广泛用于精密定位控制领域的压电直线电机具有结构简单、步进分辨率高、响应速度快、可迅速切换运动方向等优点,旋转型电机中的行波型超声电机同样具有扭矩大、断电自锁等优点;而超声换能领域基本都采用压电陶瓷材料实现,如超声清洗、超声波焊接等的振子,由于压电电机结构的特殊性,因此压电电机的结构以及其驱动电源
基于视觉的三维重构技术是指利用二维图像信息投影恢复目标的三维立体信息,从而满足特定的作业需求,因其具有高效、无损等优点,在工业、农业和建筑等领域得到广泛的应用。在工程应用领域,对持续负载的承力结构进行及时的监测能有效消除安全隐患,通过视觉三维重构技术持续跟踪目标表面的动态变形及损伤程度,是未来替代人工进行监测的关键。因此,研究基于立体视觉跟踪的动压目标变形及损伤重构算法对各类工程的安全防护具有重要
柑橘是我国南方地区最重要的果树之一,柑橘产业已成为南方农业经济中不可或缺的一部分。而黄龙病(Huanglongbing,HLB)被认为是柑橘的癌症,蔓延速度快、危害大。感染黄龙病的柑橘树,产量和质量会受到严重的影响、甚至死亡,给果农及相关产业造成巨大的经济损失。目前还没有药物可以治愈柑橘黄龙病,对于黄龙病的预防,常用的诊断方法,如PCR(Polymerase Chain Reaction)检测、D
中国是水稻种植大国,种植面积占全球水稻种植面积的18.4%左右,年产量占全球水稻产量27.6%,在全球水稻产量中居于首位。在水稻生产中,由于水田泥土松软、质地不均匀、插秧机驾驶员调控不恰当等原因,导致秧苗的田间分布不规整,使田间管理机械在后续的作业过程中不可避免地压苗、伤苗,限制了田间管理机械的发展和应用。因此,本研究提出基于深度神经网络模型的秧苗行线提取算法,并搭建了嵌入式平台,以期为插秧机提供
我国是世界上温室面积最大的国家。随着中国农业经济的不断发展,用于栽培农作物温室面积的不断扩大的情况下,改进温室控制算法的重要性已经凸显。国外发展控制温室环境技术的时间相对更早,有更先进的温室硬件基础、一体化控制系统和控制算法,使得国外温室的种植效率非常高。与国外的控制技术相比,国内开始研究的时间点较晚,达到的技术水平也不够高,其中未能提高控制性能的一个原因是缺少智能算法与控制方法的结合。PID控制
智能化设计是当前机械装备设计的发展方向。结合智能化设计方法,实现农机装备的快速、高效设计,已成为国内外农业工程领域的研究热点。在大型拖拉机中,传动系统是保证工作性能的关键,实现大型拖拉机传动系统的智能化设计是完善整机装备智能化设计的关键一步。以大型拖拉机传动系统为研究对象,结合多目标优化设计、多属性融合决策以及设计重用技术等智能化设计方法,实现传动系统智能化设计。本文在充分分析大型拖拉机传动系统的
银杏(Ginkgo biloba L.),是银杏科、银杏属的落叶大乔木,因其叶制剂与果制剂系列产品的药效与保健功能被人们广泛关注。由于外种皮用银杏施肥管理比较粗放,施用方式不当,导致外种皮质量不稳定且产量低。因此,以外种皮用银杏为研究对象,开展外种皮用银杏林施肥管理技术等方面研究,有利于研制银杏专用肥配方,促进外种皮用银杏生产。本文定点广东梅州梅西镇一银杏果园开展研究,在调查分析银杏园本底条件(包
随着农机作业质量要求的提高,GPS系统被广泛应用在农机导航上,用来获得农机的准确定位以满足精准农业的需求。得到的GPS位置信息需要经过坐标转换以适应不同的需要。在进行农机导航的路径规划、数据分析及观测作业质量时,GPS数据常转换至高斯投影平面,但高斯投影存在坐标数值大且不灵活等特点。在位置测量时,如田间采样及测绘,GPS常与全站仪进行组合测量,通过控制点求解坐标转换模型,得到目标点的大地坐标,由于