论文部分内容阅读
互联网大数据时代,人们的生活已经离不开互联网,都难免留下痕迹,这些痕迹淹没在庞大的数据海洋中,看似无从循迹。事实上,依靠科技的力量,只要方法得当,我们依然可以从海量数据中寻找到需要的信息。本课题来源于作者工作实践,主要解决两类问题,一是对于给定的主题信息,通过互联网,尽可能发现和收集与其相关的数据,搭建数据库予以保存;二是对于可疑线索,一方面同样通过互联网搜索尽可能多的相关信息,另一方面和已知特定目标的信息库进行比对,力求发现可疑线索最终指向的幕后目标。本课题研究的核心内容包括三部分:一是设计一种高精度聚焦网络爬虫程序,根据不同线索类型提取数据特征,自动化分析数据源,尽可能排除无关数据的干扰,从海量网络资源中获取与可疑线索相关的敏感信息;二是针对可疑目标的线索扩展技术。该部分需紧密结合使用部门的工作实际,数据类型和维度标准由业务部门指定并可灵活添加、修改,并采用基于Whois、Nslookup、搜索引擎及网络爬虫等数据,针对嫌疑线索进行自动化智能扩展;三是基于数据挖掘的多维信息分类与关联分析技术。重点研究了如何挖掘海量数据之间蕴含的关联规则,并通过关联规则从海量数据中提取有用信息,发现新的线索成果。