论文部分内容阅读
微博、即时通信工具、论坛、博客等社会化媒体,以及协同标注、网上商城、电子图书馆等基于实体数据库的互联网应用,已深入人们的日常生活,成了人们发表和传播信息、获取知识的重要平台。网络文本是互联网上信息的主要载体,对其深入挖掘在安全领域的网络舆情分析和实体属性发现上有重大的应用价值和学术意义。文本消息和实体信息是互联网文本数据的两种重要类型。社会化媒体上的文本消息,通常属短文本,并按其时间属性组织后形成文本消息流,包含着网民们的许多思想观念与倾向。然而,文本消息的不完整性、奇异性、海量性和动态性导致文本消息流的话题发现、倾向性分析和热点信息挖掘十分困难。另一方面,基于实体数据库的网站包含着大量网页标签、电子图书、房产、汽车、商品、娱乐和人物等实体的属性信息。实体属性信息散布在各类网页间,往往被海量的网页数据所淹没;特别是应用了垂直搜索技术的网站,大量实体属性信息被用于交互式搜索,这种隐藏在用户检索实体动态交互过程中的属性因没有显式表示在描述实体详情的最终页面上,故本文称其为潜属性信息。目前尚未发现关于潜属性信息挖掘的研究。本文针对文本消息流和实体信息的特点,面向舆情分析和实体属性发现,开展短文本会话检测、敏感热点短语挖掘、实体潜属性发现和海量属性的聚焦爬取四个方面网络文本数据挖掘技术的研究。主要贡献表现在:1.提出了一种基于消息产生密集度和上下文相关度的文本会话检测算法。文本会话检测旨在将消息分检到多个不同的会话队列,是短文本话题发现、倾向性分析与社会网络分析的基础。由于消息产生速率的变化情况能反映出文本会话的边界,本文首先采用n阶移动平均法平滑消息产生速率,然后检测出产生速率曲线中的波谷时刻,认为波谷时刻为会话边界。接着,对于切分好的细粒度会话片段,分析其内容相关性以聚合出较完整的会话,解决交错性问题。由于消息流中时间上比较邻近的消息构成对话上下文的可能性较大,为此基于邻近程度引入消息间会话上下文相关度的概念。为更客观地衡量任意两条消息间的上下文相关度,需要将海量历史消息流中相似消息间的上下文相关度进行综合计算。经综合计算得到的最终上下文相关度较高(超过某个阈值)的消息,认为属于同一会话。消息片段间的会话相关度从两个片段的消息间的相关度综合而得。实验表明,和单纯基于消息间文本内容相似度的聚类算法相比,性能提升了30%左右。2.针对微博中文文本消息流,提出了一种基于AC-Trie树的热点短语挖掘技术。消息流中出现频率突然变高且能持续一段时间的子字符串称为热点短语,它往往能反映消息流中隐含的热点话题和突发事件。本文首先用文本消息流的某个典型时段采样得到各类短语,做为热点短语挖掘的样本,构建具有有限自动机结构的AC-Trie前缀树,然后基于该样本树,通过单遍扫描后续的文本消息流,将各类短语的出现频率记录在相应节点上,并采用频率、放大率或加速度三种经典方法来度量各类短语的出现热度,挖掘出热点短语。考虑到热点话题的转移会导致热点短语的变化,AC-Trie需要相应地从新的文本消息流中采样重构,以发现新的热点短语。本文通过分析记录在Trie树各节点上的遗漏短语频率,动态确定重构时机,以及时发现新的热点短语并减少计算开销。新浪微博文本消息流上的实验表明,本文提出的挖掘技术能有效挖掘到热点短语(平均正确率达89%),时空开销仅为基准算法的2%。3.提出了基于垂直搜索网站超链接语义的潜属性信息发现技术。垂直搜索网站除包含展示实体详情的实体页面外,还包含垂直搜索过程中出现的大量列表页面。列表页面上含有用于垂直搜索的超链接。本文首先针对特定网站的某些显著特征,判别并找出所有列表页面;然后,按照列表页面上超链接中有关“上卷”、“下钻”等搜索概念的语义,通过列表页面及其每一超链接指向的列表页面所分别隐含的实体集间的大小关系的比较,找出该列表页面的“下钻”链接;最后,把“下钻”链接上的锚文本映射到该链接指向的列表页面所隐含的实体上,归入该实体的属性集。潜属性的发现对于深度挖掘舆情对象和热点话题的某些特征有重要意义。尽管网站的动态更新可能导致潜属性发现出现某些误差,实验表明本文的潜属性方法受网站动态更新的影响不大,实用性较高,能达到98%的平均精确率和97%的平均召回率。4.提出了一种基于动态查询树剪枝机制的潜属性信息聚焦爬取技术。针对垂直搜索网站不同列表页面可能隐含相同实体集这一情况,为避免潜属性发现过程中的不必要的重复,本文设计了一种查询树的剪枝机制,查询树的每个节点代表一个列表页面,父节点指向子节点的边代表相应列表页面间的下钻关系,边上的值即为相应的潜属性,从根节点到子节点路径上的所有潜属性构成该子节点的潜属性集。查询树是动态构建的。首先从网站的根列表页面出发,以深度优先方式,根据“下钻”超链接语义生成下层子节点;接着,对于新生成的每个子节点,判断其潜属性集跟已有的某个子节点相同,若有则剪除该子节点。以上含有剪枝机制的查询树动态构建过程,本文称之为属性的聚焦爬取。聚焦爬取过程结束时,可以获得无重复的所有实体页面(叶节点)。最后,通过业已成熟的传统网页信息抽取技术获得实体页面上的显式属性,并与潜属性一起构成实体的全部属性信息。实验表明,经优化后的潜属性发现方法,由于显著提高了发现的速度,故可以更好地适应站点的动态变化,精确率和召回率提高到了99%。5.设计并实现了基于UIMA的文本消息流和实体信息挖掘系统。UIMA是一个基于中间件的海量非结构化数据挖掘分布式开源平台。本文基于UIMA,采用责任链设计模式设计和实现了包含本文四个方面研究内容的互联网文本信息挖掘系统,该系统由网络爬虫构件、预处理子系统、自然语言处理子系统和本文重点研究和实现的挖掘子系统组成。网络爬虫构件实现指定网页的爬取并存储在Hadoop分布式文件系统中。预处理子系统对网页内容依据配置的规则进行初步的无用信息过滤和简单切分,并抽取作者、时间、标题和超链接等元信息,将结果封装为UIMA的CAS数据包。自然语言处理子系统对数据包中的文本内容进行分词、命名实体识别、词性标注等处理,并将结果添加到CAS数据包中。挖掘子系统从CAS包中获得文本消息或超链接,按照本文所提出的方法与机制,将消息流中的消息分检到会话队列,并进行挖掘热点短语的挖掘,对垂直搜索网站的页面进行实体属性信息发现,最后将结果写入数据库中。同时,保存于数据库中的实体属性信息反馈到自然语言处理子系统,辅助实体及属性识别,以不断深化舆情分析工作。此外,本系统还实现了一个简明的可视化界面,展示挖掘结果。本系统已成功应用于国防科大研制的银河博思舆情分析系统。