融合BERT和自编码网络的短文本聚类研究

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:kof2112
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
短文本相比于长文本词汇的数量更少,提取其中的语义特征信息更加困难,利用传统的向量空间模型VSM(vector space model)向量化表示,容易得到高维稀疏的向量.词的稀疏表示缺少语义相关性,造成语义鸿沟,从而导致下游聚类任务中,准确率低下,容易受噪声干扰等问题.提出一种新的聚类模型BERT_AE_K-Means,利用预训练模型BERT(bidirectional encoder representations from transformers)作为文本表示的初始化方法,利用自动编码器AutoEncoder对文本表示向量进行自训练以提取高阶特征,将得到的特征提取器Encoder和聚类模型K-Means进行联合训练,同时优化特征提取模块和聚类模块,提高聚类模型的准确度和鲁棒性.所提出的模型在四个数据集上与Word2Vec_K-Means和STC2等6个模型相比,准确率和标准互信息都有所提高,在SearchSnippet数据集上的准确率达到82.28%,实验结果显示,所提方法有效地提高了短文本聚类的准确度.
其他文献
在制造商主导的双渠道供应链结构中,引入价格弹性系数、单位直销成本和佣金比例系数建立模型,运用博弈论分析了双渠道零售商的最优定价策略与渠道选择问题.研究发现,零售商利润受网上直销成本和消费者渠道偏好的共同影响,当两者均较低时,网络直销结构下利润最高;当前者较高而后者较低时,网络分销结构下利润最高;当两者均较高时,网络代销结构下利润最高.制造商利润在网络代销下不受单位直销成本和网络渠道偏好的影响,其利润值始终最高;而在网络直销和分销下受到两者共同影响,当两者均较低时,网络分销下利润更高;当前者较低而后者较高时
在“制造商—运输服务商—分销商”组成的三级时滞变质品供应链中,市场需求受产品销售价格与变质时间影响,且运输费用由制造商和分销商共同分担,分别考察了各成员企业在无合作、局部合作及全面合作3种决策模式下的产品定价策略与期望收益水平.结果表明:随着各成员企业间相互合作的不断深入,时滞变质品的销售价格降低,市场供给量与供应链系统的期望收益增加.因此,无论是从市场效率还是供应链系统期望收益角度考虑,各成员企业间全面合作都是最佳决策模式.为全面合作决策模式设计了一种期望收益分配的协调机制,并论证了该协调机制的有效性.
DBSCAN算法的Eps和MinPts参数需要人为设定,取值不当会导致聚类结果准确度不高,且在密度分布差异大的数据集上,由于参数的全局性,错误地应用于不同密度的簇,导致不能正确地发现簇.针对以上问题,提出一种多密度自适应参数确定算法,利用经过去噪衰减后的数据集的自身分布特性生成候选Eps和MinPts参数列表,并在簇数趋于稳定的区间内根据去噪级别选取对应的Eps和MinPts作为初始密度阈值.对在该密度阈值条件下聚类产生的噪声数据使用同样的方法生成候选参数列表,选取最优参数,得到新密度阈值,循环该步骤直到
针对现有可持续供应链网络中指标陈旧,且未能充分利用最新可持续指标对网络进行准确衡量与优化的问题,基于《CITI评价指南7.0》,提出一种将经济成本、合规整改与节能减排、绿色供应链、推动公众绿色选择、供应链沟通与透明5项指标进行层次分析加权整合的五位一体可持续闭环供应链网络模型,并设计了一种采用蒙特卡洛树搜索改进的分支定界算法MCTS BB进行高效求解.首先,对5项指标按相互关联影响及隶属度关系进行归一化并构造多目标决策矩阵.然后,使用决策矩阵中最大特征值对应的特征向量对多目标函数进行线性组合,建立混合整数
查询是数据库系统的主要负载,为查询选择合适的执行计划是提高数据库系统性能、最终提升应用系统性能的关键.针对当前查询优化器为并发查询选择的执行计划准确率较低、动态性不足的问题,利用长短期记忆(long short-term memory,LSTM)网络的时域特性和全连接层网络(full connected networks,FCN)对特征的融合及分类优势,提出基于LSTM-FCN的并发查询执行计划选择方法.设计并编码查询组合的执行计划特征和交互特征,将其作为网络的输入,为查询动态选择适合实际运行场景的执行计
通过对码垛机器人相关文献进行归纳整理,从结构优化、末端执行机构、运动规划、运动控制、机器人编程、国内应用等六个方面对码垛机器人进行了概述,分别阐述了机器人本体结构优化、运动规划的常见方法、机器人编程的常用手段、机器人控制的常用方法、避障规划的难点、多机器人协同的特殊性、各类型末端执行机构的优缺点,随后针对我国的码垛机器人应用现状,提出了对应的解决措施,针对码垛机器人关键技术的研究,指出了未来的发展方向和研究重点,可为相关研究人员提供参考.
知识图谱主要用于从复杂数据中抽取出关键信息以生成关系网络,其对于复杂关系出色的识别能力以及对于数据较强的描述能力使得知识图谱技术具有很高的应用价值.为给知识图谱在海洋领域的应用提供理论支撑,对知识图谱相关技术进行了总体概述.阐述Citespace文献分析工具的出色应用,针对海洋领域半结构化和非结构化数据抽取技术进行了系统整理,并分析了诸如命名实体识别、关系抽取、事件抽取、知识融合以及知识推理等关键性技术的原理及后续改进,对海洋领域应用知识图谱技术的落地场景及未来前景进行总结与展望.
征信数据涉及个人的高度隐私,在收集和查询的过程中极易泄露或者收集到不真实的数据,征信数据的泄露会给被泄露人带来名誉损害和财产威胁等严重影响,为减少征信数据采集时用户隐私泄露、信息不对称、易篡改、易伪造和过中心化等问题,提出了一种融合双区块链的征信数据存储和查询方案,该方案由两条链组成,一条链用于存储多人的实时征信数据收集,另一条链用于存储个人的征信报告,融合双区块链的方案不仅能保证征信机构实时征信数据的收集记录,而且能够快速自动生成个人的征信报告,避免了个人征信数据在征信查询过程中的隐私泄露、篡改和伪造风
国家商用密码算法SM2是基于椭圆曲线密码学(ECC)而制定的公钥密码协议,已被国际标准化组织(ISO)确立为国际标准.在实际应用中,SM2算法计算过程的复杂性使其面临实现效率低的问题,并且在实现过程中还会出现与密钥相关的侧信道信息泄露.为了解决上述问题,设计了一种适用于SM2的专用指令硬件协处理器.协处理器包含接口逻辑、取指单元、译码单元、执行单元、程序存储单元和数据存储单元,借鉴通用CPU的流水线技术,将指令的实现过程分为取指、译码、执行、写回四级流水,以提高计算效率.经过在Xilinx ZYNQ-7
针对AES算法Cache计时模板攻击时会触发大量的Cache失效,容易被硬件计数器检测出来的问题,基于Flush+Flush攻击模型,提出一种基于欧氏距离的AES算法模板攻击方法,以减少触发Cache失效的次数,使攻击更加隐蔽.使用Flush+Flush攻击模型获取AES算法在内存中映射的位置;利用已知明文攻击不断地触发密码进程,通过该模型建立每一个密钥的模板;利用Flush+Flush攻击模型获取真实情况下的Cache计时信息,通过计算计时信息与每一个密钥模板之间的欧式距离推算密钥.通过实验验证,以Op