自定义主题信息抽取的研究与应用

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:thriving_hehe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今社会,网站是人们获得信息的主要来源之一,可是在网站提供的信息里面难免掺杂着一些人们不关心的信息,如图片,广告,无关链接等。一些商业性网站已经发现了这些弊端,采用了“推”的技术,向互联网上的人们发布RSS种子,人们通过定制可以直接定位到所需信息,这样的信息准确,及时。但是,一些非商业性网站,还没有这样的一个统一的信息发布平台用于不同主题信息的定制,所以在进行信息获取方面上,要实现新、快、准的目标,就要主动的去其他网站上的信息源获取。本文在自定义主题信息抽取的需求背景之下,通过对链接上下文算法和WEB目录型网页结构特点的研究,提出局部扩散算法来发现主题相关链接,从而确定主题链接块的位置,减少与主题无关的链接被发现的概率来满足自定义主题的需求。在主题信息抽取阶段,将网页HTML标签文档进行基于布局标签的划分,构造网页的粗粒度划分DOM树模型表示,通过文本语义分析,获取网页语义块的特征向量作为网页的量化表示,在进行抽取时利用网页本身文本语义进行,省去了通过大量训练集的训练来确定模板的阶段,而且通过实验证明该抽取算法有助于提高在抽取信息过程中的整体完整性,指出了适用的范围,并且在实际应用中采用语义块分析与语义块位置相结合的方式,直接定位抽取块,从而避免无关信息的抽取。最后通过对主题信息抽取的研究和公安信息网页的研究与应用,建立了一个基于块位置的自定义主题信息抽取系统。解决了如何自动的、广泛的、准确的对不同网站上的主题信息进行抽取,并且根据对不同主题进行的自定义,可以将抽取的信息进行自定义分类,实现自动化的主题信息抽取。通过实验证明,此系统不仅对简单型网页在信息抽取上取得了很好的准确率和召回率,而且对一些密集型的门户网站在主题信息抽取上也取得了比较好的效果。系统现在应用于大连市刑侦大队网上作战子系统中,对网上作战系统的具体完善提供了信息基础。
其他文献
动态拓扑是MANET网络最主要的特征。MANET网络拓扑的动态变化导致路径频繁中断,是造成网络性能下降的重要因素。因此,设计一种有效的MANET路径稳定策略,实现稳定路径的目标,
前处理是复杂问题数值模拟的主要性能瓶颈,涉及大量人工干预,其效率严重依赖于用户经验。可靠高效的自动前处理算法是提高数值模拟效率和精度的关键。前处理研究主要包含2项内
随着计算机网络技术和应用的迅猛发展,人们对互联网的需求也进一步提高,希望互联网能够有效地提供他们所需的各种服务。计算机网络及其应用的研究重心呈现出向应用层延伸的特征
随着计算机网络和移动电话技术的迅猛发展,人们越来越迫切需要发展一定范围内的无线数据与语音通信。AdHoc网络是一种没有有线基础设施支持的移动网络,网络中的节点均由移动主
Internet已经成为人们获取信息资源和进行信息交流的一个重要途径,随着Web信息的日益增长,要想在信息量浩如烟海的互联网上搜索浏览自己需要的信息,成为了一项极具挑战的工作
人脸跟踪是计算机视觉和模式识别领域的一个重要研究课题。在基于内容的视频检索、数字视频处理、智能人机接口、视觉监测等方面有着重要的应用价值。但在实际应用中,人脸跟
在云计算应用日益广泛的今天,提高云服务的质量与数据中心的资源利用率,减少云服务商的运营成本与客户的开销具有及其重要的应用价值。论文在国家863计划支持下,针对虚拟机管
近年来,随着可持续发展战略的提出和确立,土地作为一种不可再生资源,它的保护和利用日益为人们所关注,合理规划土地对我国现代化建设有着举足轻重的意义。宗地管理系统对保护
Internet技术的迅速发展,使得网络逐渐成为人们获取知识的主要途径之一。近年来,E-learning的研究和应用飞速发展,为用户提供了前所未有的丰富的学习资源和灵活的学习方式。
传统Skyline查询没有考虑用户的个人偏好,对所有用户返回相同的结果集。关键词Skyline查询,结合对象的标签、评论等文本信息,基于用户输入的关键词,返回符合用户偏好的Skylin