基于知识图谱的k-modes文本聚类研究

来源 :南京理工大学学报(自然科学版) | 被引量 : 0次 | 上传用户:WHBGODWHBGOD
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了提高文本聚类的性能,采用k-modes算法进行文本聚类,并采用知识图谱进行样本预分析,以提高k-modes的文本聚类适用度.采用知识图谱进行样本预处理,对待聚类的文本进行知识图谱三元分析,并生成对应概念、实体和关系的样本集合;接着建立k-modes文本聚类模型,设定簇内节点至簇中心的距离值之和为目标函数,通过轮流固定隶属矩阵和聚类簇矩阵,不断求解目标函数的最小值直至目标函数值稳定,获得簇中心,最后根据簇中心及各节点到簇中心距离来确定聚类结果.实验表明,经过知识图谱分析之后,k-modes算法能够获得更优的纯度、标准互信息和F值性能,且聚类纯度的均方根误差(Root mean squared error,RMSE)值更低;和常用文本聚类算法相比,对于UCI集和新闻集,该文算法均表现出了更高的聚类准确率.
其他文献
针对弱刚度环境下碳纤维增强复合材料(Carbon fiber reinforced composite material,CFRP)铣边因颤振导致的刀具损伤严重和铣边质量低下问题,开展了机床与机器人有无超声铣边试验研究.分析了超声振动对不同加工方式下铣削力波动的影响规律,开展了机床与机器人刀具损伤的对比试验,分析两种铣边方式下超声能量摄入后对刀具损伤的改善效果,对比分析机床与机器人铣边样件的表面质量.结果表明:机器人的铣削力波动性相比机床增大了57%,导致刀具损伤严重和铣边质量降低.超声振动的引入使得两者
为了解决星载甚高频数据交换系统(Very-high-frequency data exchange system,VDES)接收的碰撞信号在欠定情况下的分离问题,提出一种基于随机近端梯度张量分解的多通道碰撞信号分离算法.该算法根据分离模型对预处理后的信号建立广义协方差矩阵集,堆叠形成张量模型,利用Tucker分解进行压缩得到核张量,减少计算复杂度,并采用随机近端梯度算法优化核张量分解过程,提高了分解精度,最终求得分离矩阵,估计出碰撞的多路源信号.仿真结果表明,该算法在欠定和适定情况下均取得了很好的碰撞信号
为了解决传统除雾方法在抗击新冠肺炎疫情的过程中所出现的除雾时效短且效果不稳定等问题,该文提出一种基于氧化铟锡(Indium tin oxide,ITO)薄膜的医用护目镜加温除雾技术.该技术提出了加温除雾装置系统方案,并利用ANSYS软件模拟该除雾技术的使用环境并分析对应的温度场,获得了针对不同室温所需的除雾参数,同时以仿真结果为参考,进行了除雾效果验证试验,得到了不同环境温度下的最佳除雾温度.试验结果表明,该文提出的护目镜ITO薄膜加温除雾技术能有效延长除雾时间,且能保持除雾效果的稳定性.
为了改善交叉口运行现状,该文构建了以车辆延误和停车次数作为优化目标的交叉口信号优化模型并对优化算法进行了研究.基于Webster算法的局限性,引入人工鱼群算法来改进目标配时方案,并分析了人工鱼群算法的实现函数,同时结合混沌理论与反馈理论对算法进行了改进来提高全局优化能力.最后针对案例交叉口,使用JAVA语言设计算法程序,对优化模型进行求解,并使用VISSIM对其进行仿真实验,结果对比显示,优化后总延误降低27.78%,总停车次数降低20.19%.实验结果表明,使用该方法可优化交叉口现状,提高交通运行效率.
电力变压器是电力系统的关键设备之一,变压器绕组故障将会造成变压器损坏,影响电力系统稳定运行.为了能有效诊断绕组变形故障,提出了一种基于超宽带(Ultra wide band,UWB)技术和微波共焦成像(Confocal microwave imaging,CMI)技术的绕组变形故障检测方法,利用UWB收发器向变压器绕组发射短脉冲,并测量其沿线性路径的多个点处的反射信号,然后对测量信号进行CMI算法处理,获得绕组的2D图像,来确定电力变压器绕组径向变形的大小和位置.另外,还设计了变压器绕组四个不同位置的变形
为了从数据量十分庞大的点云数据中提取出所需的道路要素,实现道路基础设施的数字化,该文提出了一种复杂激光点云环境中的路面提取方法.基于最近行车轨迹数据点进行道路剖面的划分,搜索出每个点的最近行车轨迹点,并根据它们的编号来进行剖面划分.采用两个连续点的距离、高程、点到行车轨迹的距离这三项指标,通过它们的阈值进行路面点的判断与提取.并以行车轨迹数据为依托,每个剖面从该剖面上的行车轨迹数据点开始向两侧延伸,通过高程变化,距离等指标判断该点属于哪种道路要素,实现了点云数据中路面及其它道路要素的识别提取.该文共采用3
为了提高文本语义相似性度量的准确性,该文从深度学习的角度出发提出了一种新的文本语义相似性度量框架,充分利用深度神经网络实现词级别、句子级别、文本级别的表示学习,使得学习到的表示向量能提供融合上下文信息的丰富语义信息,在此基础上,设计了相似性度量层,采用简单的三层网络实现任意两个文本向量的相似性值计算.在两个基准数据集上进行了试验验证,试验结果表明提出的文本语义相似性度量能准确地度量文本相似性,在MP RC和SNLI数据集上分别获得了89.33%和94.53%的F1-score值,优于选取的对比方法.
在社会资本注入增量配电网规划建设的背景下,均衡不同利益主体在增量配电网中的关系,选取最优规划方案,以保证安全可靠优质的供电是亟需解决的问题.针对增量配电网中并入分布式电源后的优化规划问题,提出计及多主体效益的增量配电网优化规划方法,实现多市场主体的协调优化.首先,分别构建了分布式电源运营商、配电网投资公司以及电力用户各市场主体的规划决策模型;然后,联合考虑分布式电源并网的不确定性,根据三者的关系构建了多主体规划模型;最后结合二阶锥松弛处理潮流约束,应用cplex求解上述模型.仿真结果表明,该文提出的增量配
为了提高彩图图像加密的安全性和加密效率,提出一种基于四维混沌理论和多方向扩散的轻量级加密方案.首先,将彩色图像分离为3个通道,以十进制形式对这些通道进行扩散.接着,重新排列通道,执行四个不同方向的扩散,改变RGB图像的像素值,以进一步增加图像中的随机度.然后,为降低计算成本,利用tent映射和混沌动力状态变量选择程序,在通过混沌动力系统迭代得到的混沌数据上生成不同的密钥流.实验结果,与其他先进方案相比,所提方案具有更大的密钥空间,达到10212,能够有效抵御蛮力、统计等多种攻击,适用于图像安全的现实应用.
为了提升标记分布学习在歧义性分类问题上的预测性能,对标记形态上的模糊度进行研究.提出了标记形态模糊度的概念,给出了基于峰度的一种度量方式,探讨了不同模糊程度样本对于分类学习的影响.根据低模糊度数据更有利于学习的研究发现,基于加权低模糊度样本和对齐模糊度损失这两种策略设计了一种新的标记分布学习算法.14个数据集上的十折交叉试验表明,该文提出的标记分布学习模糊度量化标记算法在各种数据集上都能够降低模糊度损失并提升预测精度,具有良好的鲁棒性.