论文部分内容阅读
随着互联网的快速发展,人类已经进入了一个信息爆炸的时代。信息“过度”“过载”给人们筛选信息带来了很多困扰。一种最为理想的状态就是人们能够象查询数据库那样查询网络上的信息。而因特网上的信息具有海量、动态、异构等特点,这就使得信息的保存与抽取不同于传统的方式。这也给情报分析人员带来了难题。本文则是以中科院有机化学研究所的化工情报研究为背景,研究面向公共服务的化学化工情报工作模式,设计了化学化工情报服务系统,提出了保存网络资源,网页去重以及信息抽取的方法,从而大大的提高了情报分析的速度与质量。与传统情报分析相比具有很多优越性。全文分为七个部分:第一章绪论。从整体上介绍本课题的背景,列举了各个国家的发展现状,并提出本课题研究的对象、意义以及面临的问题,以及本文的创新之处。第二章化工情报系统的分析与设计。对整个化工情报研究流程作了介绍,介绍了信息源、信息收集工具,并对数据收集的规范问题做出了阐述。第三章化学化工情报产品的最终形成。第四章网络环境下的化工信息收集。介绍了网络信息资源的特点以及收集的策略。第五章网页的去重研究。对获取网页进行去重处理,采用C#语言在.net2.0平台下完成了整体的软件设计及实现。结合以前的各种去重算法提出了一种基于网页切片的信息去重方法,提高了去重的准确率和召回率。第六章基于领域知识本体的web信息挖掘。基于模板的信息抽取和基于机器学习的信息抽取是两种典型的网页信息抽取方法。我们采用基于领域知识本体的药物网页信息抽取方法。第七章情报系统服务运行示例。介绍整个系统的运行操作流程。最后一部分是工作的总结与展望,指出不足之处以及需要改进的地方。