【摘 要】
:
传统的信息由于缺乏统一的语义描述,充斥着大量繁杂重复信息,面对这些海量信息,如何快速、有效地从“信息海洋”中获取人们所需的信息成为难题。让信息具有语义,使计算机能够
论文部分内容阅读
传统的信息由于缺乏统一的语义描述,充斥着大量繁杂重复信息,面对这些海量信息,如何快速、有效地从“信息海洋”中获取人们所需的信息成为难题。让信息具有语义,使计算机能够理解信息含义,进而对信息进行加工处理,能从根本上解决这一难题,更好地实现信息共享。由于中文信息的特殊性和复杂性,使得中文信息处理难度相对较大,而信息语义化的要求则对中文信息处理提出了更高要求。用户不再仅仅满足获取直接信息,而需要获得更多的隐含语义信息,数据挖掘正是为了满足这一需求诞生的。但传统的数据挖掘需要领域专家协助,并依靠数据驱动,逐渐不能满足用户的需求。而本体作为客观知识的语义形式化描述,在数据挖掘中引入基于本体的语义分析技术,有助于解决信息处理的语义化问题,为实现中文信息语义挖掘做出贡献。论文结合信息产业部电子产业发展基金项目的开发,对中文信息的语义数据挖掘技术进行了系统的研究。首先分析了中文信息处理的特点及各项关键技术,并对中文分词技术进行了深入探讨,实现了一种采用正向最大匹配和词典分词算法的中文分词器。然后在深入介绍了本体论相关知识之后,提出了一种基于本体的语义数据挖掘(OSDM)技术,给出了其工作流程和原理,并对涉及的领域本体构建、语义标注和语义推理等关键技术进行了分析研究,给出了切实可行的解决方案,为语义数据挖掘技术的应用奠定了良好的基础。最后基于OSDM技术模型设计并实现了一个中文信息语义检索系统。该系统以参考背景知识自行构建的MyFruitOnto领域本体作为知识库,利用本体描述语言OWL的语义推理能力,对检索词进行推理扩展,来获得更准确的用户意图,返回更准确的检索结果信息。同时,系统为了克服领域局限性,系统还实现了全文检索功能,提供了更好的用户体验、更完整的功能和更可靠的系统性能,初步实现了信息检索智能化。
其他文献
目前等离子体在半导体加工、材料改性、低温杀毒以及污染治理等诸多领域的应用研究蓬勃发展,等离子体中的电子密度、电子温度、悬浮电位等特性参数与应用对象有着直接密切的关
近年来,危险化学品公路运输事故频繁发生,造成的后果十分严重,危险化学品公路运输的安全形势十分严峻。为了减少事故造成的人员伤亡和财产损失,提高运输安全性,急需开发危险
本文依托于国家863计划资助项目“油气输送管线检测装置标验及率定关键技术研究”(项目编号:2006AA092324),开发研制一套用于海底输油管道内壁的变形检测装置。随着海上油田
直升机因活动于易结冰的中低空高度,且其旋翼运动速度较高,故而结冰形势较固定翼飞机更为严重,也更容易导致危险事故的发生。旋翼是直升机最易结冰的部件之一,且对直升机的安
据卫生部统计,自90年代以来原发性肝癌已上升为恶性肿瘤的第二位,而B超检查作为普查肝癌的首选方法,由于受肝癌B超图像质量方面的因素及恶性病变良性表现和观察者视觉疲劳或
本文主要研究提高基于短语的统计机器翻译系统的性能的方法。基于短语的统计机器翻译方法具有在翻译的过程中应用上下文使目标语言的构建更为合理且符合自然语言特征,通过无监
显著性目标检测的目的是完整一致地检测出图像中最吸引人眼注意的目标区域。人类等灵长类动物能够快速地从复杂场景中选择感兴趣的区域,然而在机器视觉领域中,如何准确高效地
本文提出了一种以超声波技术、单片机技术和GPRS(General PacketRadio System)传输技术为核心的污水流量测量系统,在稳定性、扩展性、实用性以及功能、价格、精度等方面与传
在电力系统的运行中,同步发电机的励磁控制对整个系统的特性起着重要的作用,性能优良的励磁控制系统能够有效地保证电压的质量,提高电力系统运行的稳定性,与其它为提高电力系统的稳定性而采取的措施相比,励磁控制具有投资少、易于实现等特点。直接反馈线性化方法属于线性化方法的一种,这种方法的基本思想也是首先把非线性系统转化为线性系统,然后对线性化后的线性系统来设计控制器,这样,就不需要进行复杂的坐标变换,直接便
针对目前难成型、大直径和复合材料铆钉的铆接难题,提出以电磁感应加热和电磁铆接相结合的电磁热铆接方案,用于我国飞机制造和维修中。电磁铆接作为一种新型铆接工艺,已经应用于