论文部分内容阅读
当今社会,网站是人们获得信息的主要来源之一,可是在网站提供的信息里面难免掺杂着一些人们不关心的信息,如图片,广告,无关链接等。一些商业性网站已经发现了这些弊端,采用了“推”的技术,向互联网上的人们发布RSS种子,人们通过定制可以直接定位到所需信息,这样的信息准确,及时。但是,一些非商业性网站,还没有这样的一个统一的信息发布平台用于不同主题信息的定制,所以在进行信息获取方面上,要实现新、快、准的目标,就要主动的去其他网站上的信息源获取。本文在自定义主题信息抽取的需求背景之下,通过对链接上下文算法和WEB目录型网页结构特点的研究,提出局部扩散算法来发现主题相关链接,从而确定主题链接块的位置,减少与主题无关的链接被发现的概率来满足自定义主题的需求。在主题信息抽取阶段,将网页HTML标签文档进行基于布局标签的划分,构造网页的粗粒度划分DOM树模型表示,通过文本语义分析,获取网页语义块的特征向量作为网页的量化表示,在进行抽取时利用网页本身文本语义进行,省去了通过大量训练集的训练来确定模板的阶段,而且通过实验证明该抽取算法有助于提高在抽取信息过程中的整体完整性,指出了适用的范围,并且在实际应用中采用语义块分析与语义块位置相结合的方式,直接定位抽取块,从而避免无关信息的抽取。最后通过对主题信息抽取的研究和公安信息网页的研究与应用,建立了一个基于块位置的自定义主题信息抽取系统。解决了如何自动的、广泛的、准确的对不同网站上的主题信息进行抽取,并且根据对不同主题进行的自定义,可以将抽取的信息进行自定义分类,实现自动化的主题信息抽取。通过实验证明,此系统不仅对简单型网页在信息抽取上取得了很好的准确率和召回率,而且对一些密集型的门户网站在主题信息抽取上也取得了比较好的效果。系统现在应用于大连市刑侦大队网上作战子系统中,对网上作战系统的具体完善提供了信息基础。