基于本体的食品投诉文档文本聚类研究

来源 :东北师范大学 | 被引量 : 2次 | 上传用户:ansonliu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网时代的到来,信息在传播途径上发生了翻天覆地的变化,人们可以轻易的从网络上下载海量数据,文本聚类作为一种有效的文本组织手段,可以帮助人们发现网路上热点的问题,自动编辑多文档文摘,文本聚类受到了越来越多学者的关注。文本聚类核心技术在于文本的表示方法,传统的解决办法是基于向量空间模型的表示方式。这种统计学上的表示方式不能很好表达文本的语义和语用信息,因此存在一定的弊端,如不能解决一词多义,同义词等问题,这也制约着文本聚类的质量。为了解决这些问题,我们引入了本体论技术。本体论用来描述事物的本质,是人工智能领域新兴的知识表示技术。本体将人们公认的经验知识,按照一定的建模元语表达出来,它可以描述概念及描述概念间的相互关系。本体可以被看成一种交流手段让机器理解人类的知识并将其积极的利用起来去解决实际问题。本文针对乳制品投诉文档构建乳制品本体,提出了一种基于本体的文本聚类算法,重点是解决对文本表示上的语义信息扩充问题,通过概念匹配找到文本文档中隐含的概念信息补充特征向量,进而提高聚类效果。并在无监督聚类基础上引入主题知识,利用Hownet相似度计算公式对比文档与危害主题词,进行对文档的聚类,将这种聚类框架应用在投诉文档集上,挖掘有用信息,追踪食品安全中存在隐患。实验结果证明,本文方法能够完成聚类,并取得良好的效果。该研究具有应用价值和广泛的应用前景。
其他文献
随着信息技术的发展,很多应用领域都产生了大量流数据,因此流数据挖掘成为数据挖掘领域的热门研究课题。其中流数据闭合频繁模式挖掘是流数据挖掘领域的一项关键技术,被广泛
收益最大化问题是科学研究、股票投资和商业投资中的热门话题。此问题在新股申购决策以及公司新产品投资的过程中表现得尤为突出。本文针对该问题,提出了分合增益模型,并将该
视频监控系统在诸多领域发挥着极其重要的作用,由于计算机视觉的方法有着成本低廉、部署方便等优势,使得近年来多摄像机系统的应用越来越广泛。摄像机网络中的目标跟踪在维护公
虚拟现实技术,是一项运用现代的计算机技术来构建的一个类似于客观环境、可以让人们沉浸其中并且自由驾驭的人机环境的技术。虚拟场景的绘制方法概括起来主要有两种,分别是基
目前,用户声誉系统被大规模应用于各种电子商务网站,每次交易中的双方用户通过交易后对系统的反馈信息,来达到对对方声誉值的影响,从而督促用户在交易中培养出好的行为,恪尽
随着信息技术的发展,在互联网上进行金融行为的人越来越多。在金融领域,每时每刻都有大量的信息通过互联网公布。由于网络本身所具有的信息量庞大、信息来源不固定、文本化表
随着计算机网络的飞速发展,人们的生活得到了巨大改善,同时安全问题日益凸显,不断衍生出内网、外网等复杂网络结构,单向传输系统是内外网数据传递的理想方式,但现有单向系统
手背静脉识别是一项新兴的生物特征识别技术,研究开始于二十世纪九十年代。相对于指纹识别、虹膜识别等技术,该技术起步较晚,系统开发还不够完善和成熟,但是凭借着非接触、活
心血管疾病关系全球的健康问题,医学影像技术是当前诊断疾病的主要手段,一个准确的血管可视化分割工具在临床中越加重要,应用广泛,例如疾病诊断,手术规划,疾病监控等。当今,
随着全球信息化进程的推进,无线射频识别(Radio Frequency Identification)技术已经在各个领域得到广泛应用,包括物流、交通运输、医疗保健、工业、  商业、金融、海关及政