论文部分内容阅读
随着互联网电子商务的兴起,越来越多的企业将企业信息发布在网络上。这种渠道使企业的经营市场不再受时间和空间的限制,各企业无论大小拥有一样的信息资源。但是对于企业而言,如何从浩瀚的Internet上获取感兴趣的企业信息,如何寻找企业的潜在竞争对手及潜在合作企业,对企业的经营决策和生存发展都有着极其重要的意义,企业关系挖掘技术研究就是在这一环境下产生的。本文的研究工作包含两方面内容:企业信息抽取和关系挖掘。本文利用了基于DOM的抽取方法抽取企业信息。首先利用网络爬虫从企业门户网站爬取企业网页,由于来自同一个网站的网页在结构上具有很大的相似性。本文利用DOM Tree对企业网页进行解析,首先借用HTML Tidy将HTML格式网页转化为XML格式,然后根据规则进行信息节点定位,抽取需要的企业数据信息。在关系挖掘上尝试了两种方法:基于文本相似度的方法和基于领域Ontology的方法。基于文本相似度的方法利用抽取的部分企业信息作为代表企业的文本,将企业间的文本相似度值作为判定企业竞争关系的依据。本文中以向量空间模型表示企业文本并进行文本相似度计算,并基于此方法进行了实验验证。基于领域Ontology的企业关系挖掘首先对所分析的产品领域构建领域本体,本文详细分析了领域本体的构建过程并借助斯坦福大学开发的Protégé本体构建工具针对计算机领域构建了一个Ontology,并利用Jena解析Ontology文件。通过设定规则对产品的关系产品进行推理查询,针对企业产品查询其相关联产品。因为企业关系通常体现在企业经营产品的关系上,本文中借助Ontology推理出的产品关系判定企业关系。实验证明,这种方法相比基于文本的方法在准确率和召回率上都有显著提高。