论文部分内容阅读
随着网络的普及与发展,互联网上的信息呈爆炸式增长,尤其是web2.0时代的到来,使得普通用户可以直接参与到信息的创造当中,更是加剧了这一过程。这些信息在带给人们便利的同时,也带来了困扰。如何从海量的信息中筛选有效信息已成为迫切需要解决的问题,文本标注正是在这种背景下应运而生。本文基于复杂网络基本理论与TextRank算法对文本标注技术进行研究,并将标注的结果以可视化的形式呈现,方便用户筛选信息。本论文的主要工作包括:1.基于复杂网络的文本标注技术研究。本文以复杂网络基本理论为基础,提出一种文本自动标注算法一一EC-DC算法。该算法首先对文本进行分词、词过滤等预处理,获得候选词;接着将候选词映射为网络中的节点,候选词之间的同现关系映射为网络的边,利用离心率中心度和点度中心度衡量候选词在网络中的重要性;最终选择最重要的K个词标注文本。2,基于TextRank的文本标注技术研究。本文利用文本中的词频、词位置、词跨度等信息计算候选词的权重,利用词与词的同现关系计算词之间的距离。将候选词看作有质量的物体,其质量为词的权重。对于任意两个词,根据它们的权重和距离采用类似于万有引力的计算方法计算词之间的吸引力强度,并用该吸引力强度替代TextRank算法中词与词之间的边关系。与原有的TextRank算法相比,改进后的TextRank算法更加充分利用文本信息,不仅考虑了词的同现关系,还考虑了文本中词本身的特征信息。3.文本标注可视化。信息的可视化在大数据时代扮演着重要的角色,本文的最后实现了文本标注的可视化系统,依据上述两种算法计算的标签权重,将标签以标签云的形式呈现给用户,重要的标签在标签云中显示的字体大小、颜色更为醒目。本文基于复杂网络和TextRank算法实现文本的标注,与传统的TFIDF算法相比,这两种算法的标注结果在准确率、召回率和Fl值上均得到了提升,说明了这两种算法的有效性。同时,可视化系统将标注的结果直观地展现给用户,极大地方便了用户筛选信息,达到了预期的效果。