论文部分内容阅读
近年来互联网药品市场随着电子商务的发展日益扩大,但随之而来的隐患也在不断加剧。面对互联网上充斥的大量不规范甚至是虚假的药品信息,监管部门急需一种先进的互联网药品信息监测手段来加强对这个市场的规范管理。为此,复旦大学和清华大学成立了“互联网药品信息管理及智能监测技术与系统研究开发”联合课题组,对相关技术进行了深入研究,并取得了突出的研究成果。目前已有的互联网信息抽取技术普遍存在着需要过多人工干预、灵活性适应性不足等诸多缺陷,无法适应不断产生的新信息源。本文针对互联网药品信息的特点,在大量调查研究以及相关工作的基础上,提出了一种基于多维语义的互联网药品信息抽取方法,通过从多个维度描述与互联网药品信息抽取相关的语义信息,来屏蔽不同药品信息发布网站在网页内容以及结构上的异构性、找出其共性。同时,利用了基于信息熵理论的结构语义熵算法来对网页中的药品信息进行准确识别与定位。本文详细介绍了多维语义词典以及信息抽取系统的设计思路与实现,并且通过实验对文中提出的方法进行了实验验证。实验证明,该方法可以在大大降低人工干预的同时,具有较高的准确率与召回率,并且可以自动识别未知网站内的药品信息,具有较高的灵活性与适应性。应用本文提出的基于多维语义的互联网药品信息抽取方法以及系统框架,可以为实现准确、全面、实时、自动的药品信息监测提供数据支持,为政府监管部提供智能化的监测手段,对其规范市场、保障百姓的用药安全有着重要意义。