论文部分内容阅读
在近十年世界互联网呈爆发式发展,据Gartner Dataquest最新调查显示,目前,全球互联网用户在逐渐增多,其中近1/4用户使用了高速互联网服务。由互联网衍生出来的新型产业就是电子商务网络购物。据波士顿咨询公司对中国用户的调查报告显示,在2009年有大约8%的中国网民通过网络进行购物,而这一数据在2006年仅占3%,并且预计到2012年将达到达到19%。中国消费者的网购次数和金额也达到了一定的高度,约有50%的网购者一年的网购次数超过11次,近40%的人消费金额超过294美元。网络购物将会掀起新一轮互联网高潮。随着电子商务的快速发展,由此也带来了许多问题。在网络购物过程中,网站信息泛滥,用户查询信息的不方便,都在提醒着研究者们需要一种方便快捷的搜索工具。因此一些强大的搜索引擎出现了,Google,Baidu,Bing等,并且也都涉及了购物搜索领域。但是任何事物都不是完美的,由于是基于全文的检索,所以在查询及返回结果时,用户得到的仍然是相关的信息页,如果要得到需要的信息,仍然要从该结果中再次人工查询。而信息抽取可以在一定程度上解决这个问题。因此本文从电子商务网站入手,详细分析了当今电子商务网站以及目前较强大的网络购物搜索引擎的特点。从目前形式来看,用户需要更加方便快捷的搜索方式,本文将领域本体这一概念用来描述电子商务领域,借助本体描述提高电子商务领域中信息抽取的功能。本文通过Protégé构建电子商务领域中的产品“电影DVD”本体,并且对类似网页的基本结构和内容进行深入分析,构建本体模型,在信息抽取过程中,使用词性标注对web文档和本体建立连接,并且使用RDF对本体以及信息抽取规则进行描述。本文的目的是对电子商务网站产品信息进行抽取,为用户抽取出准确的信息。最后本文在自然语言处理工具GATE平台对其进行实验并得到抽取结果。