基于主题和语义指纹融合的学术论文粗分类方法研究

来源 :延边大学 | 被引量 : 0次 | 上传用户:ynshisss
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网、物联网、云计算等信息技术把我们带到了多元智能的网络化大数据时代。然而,大量的资源共享和实时的交流探讨使网络空间中的数据呈爆炸式增长,其规模巨大且形式多样,不仅给网络空间数据的存储带来了压力,同时降低了数据价值的利用密度,呈现出“数据丰富而知识缺乏”的窘态。如何对数据压缩存储,如何从庞大的网络空间中寻取到满意的信息成为目前迫切需要解决的问题。本文选取学术论文作为数据对象,提出了一种文本指纹提取方法和文本粗分类算法,进而达到数据的压缩表示和有效组织管理的目的。首先,本文提出了基于潜在语义分析的文本指纹提取方法。该方法是针对目前指纹提取方法语义缺失问题的一种改进。该方法主要用于学术论文正文部分的语义指纹提取,通过奇异值分解对原始文档进行潜在语义分析,挖掘原始文档的潜在语义特征,然后根据随机超平面原理将保留的语义特征转换成二进制数字指纹,得到高维原始文档的低维语义指纹表示。其次,设计了一种基于融合表示的文本粗分类算法。该算法主要是基于学术论文梗概(题目、摘要、关键字)和正文两大部分融合表示的聚类,是K-means算法的一种改进。该算法下每篇文档都被主题向量和语义指纹所表示,聚类过程中每次迭代的簇中心均采用数据集中的真实文档,并作为原文档集的一个原型。此外,算法采用余弦距离与汉明距离融合的计算方法计算文档与各类中心的模糊隶属程度,并将文档归到具有最大隶属度的类别,完成数据集的粗分类。最后,为了给后续搜索访问等操作提供有利信息,本文设计了基于原型的文档分类算法。该算法根据集外文档与各原型间的相似度来判断是否对其进行归类以及归到哪一类等处理。实验结果表明,本文提出的基于潜在语义分析的文本指纹提取方法与常用的向量空间模型表示方法及Simhash方法相比,所提取的指纹精度更高,更能体现文本的语义信息。另外,本文基于融合表示的文档粗分类方法解决了原始K-means聚类算法的大类问题,对数据集中各领域文档的F值均达到80%以上,能够得到较好的类结构。基于原型的集外文档分类方法,在与原型同领域文档间具有较高的正确率,对其它领域文档具有较高的拒识率,可以对集外文档进行正确辨识,达到粗分类目的,有利于文档集的组织和管理。
其他文献
信息隐藏是一种以不被察觉的方式,将秘密信息嵌入到数字化载体中如文本、图像、音频及视频等多媒体文件,既保障嵌入内容隐秘性又保障嵌入行为隐秘性的技术。数字视频因具有数
红外焦平面阵列能够探测到自然界微弱的红外辐射能量,并对其进行积分等处理产生图像信息,被广泛应用于军事和民用领域。读出电路是红外焦平面的核心模块,其性能更是决定着红
高压浮栅驱动芯片可广泛应用于民用和军工产业,但是由于国内的研究还处于起步阶段,我国仍然依赖于国外的芯片进口。由于噪声会对高压浮栅驱动芯片浮置地电位产生影响,严重时
协作中继技术可有效对抗传输过程中多径衰落带来的不利影响,多中继协作传输进一步提高了系统传输的可靠性,但会大大增加系统资源开销和降低传输效率。本文针对多中继协作网络
目的:目前测量人体日常体力活动方法有很多种,但是都有相当大局限性。通过便携式加速度传感器测量体力活动能耗,已发展成为主流,但其预测体力活动能耗的算法模型一般为线性回
锚杆加固技术广泛应用于各类建设工程中。锚杆锚固体系是否达到了工程设计要求,起到了预期的加固作用,是关系到生命财产安全的大问题。所以,锚杆锚固质量的检测工作在锚杆锚
本文以大连市某小区四层框架结构发生不均匀沉降而进行的基础托换加固工程为背景,采用有限元软件进行数值分析,对发生沉降的框架结构内力变化及局部桩-梁托换基础加固效果等进行了探讨,具体研究内容如下:(1)概述基础不均匀沉降的原因及常用的加固方法。介绍结构的工程概况,并对现场测量的基础沉降数据进行分析;论证基础加固方案的选择,针对桩-梁托换加固方案对托换桩的承载力及托换梁的设计进行验算。(2)考虑房屋结构
随着协同中继技术在无线通信系统中的应用,信息传输速率和基站覆盖区域得到极大提升。然而,传统的协同中继网络工作寿命有限,并且为了保持网络持续工作,必须定期为中继更换电
无线通信的飞速发展,激发了人们对高速数据传输速率的急切需求。通常情况下,无线通信系统通过在基站配备较多数量的天线来提升系统的数据传输速率,并且不会额外增加系统的带
图像去雾是数字图像处理的重要内容之一,是图像增强的一种。传统的去雾方法只能去除图像中的雾霾,却忽略了图像中噪声的存在。在去除雾霾的同时,原来被雾霾覆盖的噪声却凸显