【摘 要】
:
随着计算机行业的快速发展,人们获得的信息和采集的数据不断增加。聚类算法作为数据挖掘的一种常用工具,可以有效地分析数据之间的关系,亦可高效地处理海量数据。本文对文本聚类算法进行深入研究,主要包括文本距离计算方法和聚类划分算法。过去的工作大多数使用Word2vec实现文本向量化,没有体现词的多层特性,不能解决一词多义的问题;针对这些问题,本文采用ALBERT处理文本向量化,文本向量可以更好地表示文本特
论文部分内容阅读
随着计算机行业的快速发展,人们获得的信息和采集的数据不断增加。聚类算法作为数据挖掘的一种常用工具,可以有效地分析数据之间的关系,亦可高效地处理海量数据。本文对文本聚类算法进行深入研究,主要包括文本距离计算方法和聚类划分算法。过去的工作大多数使用Word2vec实现文本向量化,没有体现词的多层特性,不能解决一词多义的问题;针对这些问题,本文采用ALBERT处理文本向量化,文本向量可以更好地表示文本特征。聚类过程中使用的文档距离计算方法多是传统的距离计算数学公式,无法准确地表示文档之间的距离;本文提出了一种基于ALBERT的长文本距离计算模型(Long text distance computation model base on ALBERT,LTDCM),根据THUCNews数据集文本的特点,将文本分段后经过ALBERT处理组成分段矩阵,并利用Bi LSTM产生位置矩阵,将两个矩阵求和送入Transformer编码器进行特征提取,最后对两个文本矩阵进行池化、拼接后输送至全连接层经由激活函数输出两个文档之间的距离。由于文本经过ALBERT处理成向量为高维数据,而密度聚类算法在高维数据集上表现并不好,划分聚类算法中的K均值算法适用于高维数据集,但算法性能非常依赖于初始类中心点的选取。针对K均值算法随机初始化带来的不稳定性,提出一种融合密度和划分的文本聚类算法(Text clustering algorithm combining density and partition,CDP),根据文本距离来定义文本密度,并通过密度筛选出适合作为初始类中心点的集合,然后采用最远距离选取思想来逐步选取初始类中心点,最后根据距离就近原则划分数据集,更新聚类中心并重新划分直至聚类结果稳定。实验表明,在THUCNews新闻数据集上,ALBERT模型可以很好的表示文本特征;基于ALBERT的长文本距离计算模型可以较为准确地表示两个文本之间的距离;融合密度和划分的文本聚类算法在文本聚类问题上拥有优秀的表现。
其他文献
在计算机视觉领域,图像分割作为非常关键的部分,是该领域基础问题之一。在实际应用过程中具有极大的价值。本文的研究基于图像分割中两个重要子领域:图像语义分割和显著性目标检测。图像语义分割是从像素层面对图像中的目标进行分类,基本要求是每一个像素都应被正确地分类。显著目标检测来源于视觉显著性,主要任务是寻找一张图像中人眼最关注的目标区域。但是显著目标检测只是得到显著这一种类型的目标,可以看成一个二分类问题
为充分提高分布式能源的利用率、降低化石能源的消耗及其对环境的污染,在电力系统领域中微电网技术得到了飞速的发展。微电网能统筹利用本地各种形式的可再生能源,维系局部区域与大电网之间的电力平衡。随着微电网及主动配电网技术的成熟,其工程应用已变得非常广泛。与此同时,微电网数量的急剧增加也带来了新的问题,例如,在能量交易方面,基于对微电网交易的成本、合理性、公平性与能源就地消纳的考虑,传统的单一微电网与配电
在人工智能+交通的发展背景下,交通实验设备更加智能化,而现有的实验模型设备只能对车辆进行监控,并不具备车牌识别能力,这给交通工程学生在相关领域的研究和实验带来局限。因此,为了满足交通实验教学需求,本文提出在缩微交通环境下构建缩微智能交通平台来进行车牌识别,实验结果表明:该实验平台能对模型小车车牌精准识别,具有较高的工程应用价值。论文主要内容如下:首先,对缩微交通环境下进行车牌识别研究的背景和意义进
当前分布式能源对电网持续地渗透已经不断在为能源互联网的进一步发展完善前置条件。为了让分布式发电能够逐渐全面参与电力交易,国家已对分布式能源交易试点提供了最新政策指导。目前的能源交易已经开始尝试结合区域电网、分布式发电、新兴技术等,但仍然存在诸多不足之处:如未考虑“过网费向负荷侧收取”的政策要求对交易市场中购售双方带来的利益平衡问题;着重于交易模式、策略却忽视交易与安全调度的匹配;缺少对传统交易中心
针对6槽7极单边平板型永磁同步直线电机运行过程中会产生推力波动,导致机床加工精度变差的问题,本文以数控机床使用的永磁同步直线电机(PMLSM)为研究对象,对电机的设计方案与减小电机端部磁阻力等方面进行研究。提出一种将V型磁极与错位法相结合的方法;并且针对辅助齿宽度的大小与位置跟推力波动的关联,提出一种单级凸阶梯型辅助齿结构。(1)运用基本参数建立永磁同步直线电机模型。基于旋转电机的设计公式与流程;
近50年以来,科技发展迅速,人民生活已进入工业4.0时代。为了满足对电能的需求,电力电子技术的未来研究方向将朝着更高频化、模块化、集成化的方向发展。一方面,谐振变换器因为具有软开关特性,能够良好的抗开关短路与断路功能,在高频化、高功率密度的开关电源中具有重大作用,其中,LCC谐振变换器重点应用在恒流源与恒流驱动、无线直流充电等领域中。另一方面,开关电源中由于其分立的无源元件过多,势必会占用大量空间
随着信息化时代高速发展,人们对图像质量的要求日益增加。图像超分辨率(Super-Resolution,SR)重建旨在通过计算机软件方式从低分辨率图像中恢复自然、清晰的纹理,重建出画质优良的高分辨率图像。近年来,得益于深度学习技术的应用,图像SR重建取得显著进展,在消费与医疗、公共安全与军事等相关专业领域都有着广泛的应用。针对目前图像SR重建算法训练速度缓慢、网络模型不稳定以及对高频信息处理模糊等问
行人重识别是在跨监控设备下对给定行人图像进行目标检索的技术,是近期计算机视觉领域的一个关键问题,普遍应用于智能安防、人机交互、电子商务等领域。由于监控下的行人图像存在视角差异、姿势变化、物体遮挡等问题,这要求行人重识别模型能够捕捉到有效的内容来进行行人的判别。利用卷积神经网络能够提取有效的行人图像特性,但图像全局显著信息只关注到图像的整体情况,易受外界复杂环境等无关因素的干扰,如何通过局部信息增强
进入二十一世纪,我国机动车的数量激增,智能交通系统(ITS)在人们日常生活中起到越来越大的作用。作为智能交通网络系统的重要组成部分,车辆自组织网络(VANETs)的推广为人们智慧出行提供了技术支持。但是这也带来了新的问题,车辆交互过程中,产生了大量的数据,这些数据中包含的隐私数据容易受到攻击者恶意破坏和非法访问,导致诸如用户真实身份、生活习惯等信息的泄露。本文围绕VANETs的隐私保护进行研究,具
铁路是我国的重大基础设施,我国已成为电气化铁路第一运营大国。在铁路中,以负序为主的电能质量问题一直备受关注,牵引负荷的峰值功率是造成这类问题的重要原因之一,同时牵引负荷的峰值功率对于铁路的经济效益也有着重要的影响。本文围绕牵引负荷峰值功率过大的问题,在电气化铁路系统中引入超级电容储能对牵引负荷进行削峰填谷,以降低牵引负荷的最大需量和提高电气化铁路牵引变压器的容量利用率,从而达到提高铁路部门经济效益