论文部分内容阅读
随着信息技术的发展,尤其是因特网和大规模存储介质的普及,形成了信息的汪洋大海。如何查找和利用用户所需的各类信息,为了帮助用户迅速有效地查找和利用信息,各种信息处理技术应运而生。文本摘要技术是一个很好解决信息超载问题的技术。当前很多摘要模型已经被人们提出,但是没有一个模型是完全基于文章节结构的。他们忽略了这样一个事实,人工摘取句子是依据文章的层次结构的。文章结构可以被描述为一些数学对象的分形。在过去,分形理论在数字图像压缩领域有很广泛的应用,这个和文本摘要在某些方面是相似的。他们都是从源文件中提取重要的信息,减少源文件的复杂性。分形摘要模型是第一个在文本摘要中应用分形理论的成果。它依据文章的重复表述运用递归决策算法来提取文章摘要。分形摘要大大提高了摘要的信息覆盖率,它健壮和透明的,用户能够容易的控制文章的压缩比率。同时,分形摘要系统产生出来的摘要具有最大的信息覆盖率、与源文件有最小的差异。分形观点是运用分形方法控制信息的显示。分形树可以便扩展成为任何逻辑树。树的根的分形权值被设为1,分形权值可以传播到子节点,一个父亲节点的权值可以按比例分到子节点上,分得的权值作为子节点的分形权值。在分形前要先设定一个初始值,用这个值来控制分形显示的数量。节点的分形权值小于初始值的节点将被隐藏起来。分形摘要的模型是基于分形显示,和分形图象压缩的模型而建立的。根据源文件的结构和描述,一个源文件被分成一些子块,形成一棵分形树。每个节点的分形权值是根据文章被分割的子块中的句子的权重的总和计算出来的。用户可以选择一个压缩率,用以指定有多少句子可以被选中作为文章的摘要。因而摘要包含的句子的限额可以被计算出来。一个节点选取句子的限额将根据它的子节点的分形权值被传播到它的子节点中。分形摘要算法:1.选择一个压缩比率和一个初始限额值threshold。2.计算出摘要应包含的句子的限额。3.把文章分成一些子块。4.把文章转换成分形树的形式。5.把分形树的根节点设成为当前节点。6. Repeat6.1 对当前节点的每一个子节点,计算子节点的分形权值。 <WP=46>6.2根据分形权值按比例分配每个子节点的句子的限额值。6.3 对每一个子节点,如果限额值n小于限额初始值threshold,则在该子块中选取的权值最大的n个句子。如果限额值n大于等于限额初始值threshold,则把该子节点设为当前节点Repeat 步骤 6.1, 6.2, 6.37. 当前节点的所有子节点都处理完成跳出循环.在分形摘要中采用了基于概念统计的主题特征的提取方法。由于文章修辞的需要或文章风格的差异,经常出现用词比较简捷,同义替换的现象。因此,仅仅依靠特征项的重复而产生的频率信息是完全不够的。注意这样一个事实,同一层次的若干自然段,由于共同支持该层次所表达主题思想,因此选用的词汇可能出现同义替换,但表达的概念却是一致的,如果将特征项映射至概念级,无疑将有助于加强同一层次内段落间的聚合能力。在基于概念统计的特征提取中主要的四个定义。1)概念的S-频度即概念所在文章中直接出现的次数。本文把待处理文本中直接表达概念C的词语次数定义为C的S-频度(Self Frequency)。设原文中语义概念为C的词的集合为{W1,W2,W3,…Wn},则概念C的S-频度Fs(C)为:Fs(C)=其中F(Wi)是词语Wi在文中出现的频度。2)概念的T-频度即概念自身及所属全部子概念在文章中出现的次数。本文将以C为根结点的子树所含概念的总频度称为C的T-频度(Tree Frequency)。设概念C的后代集合为{A1,A2,…,An},定义C的T-频度FT(C)为:FT(C)=F(C)+ 其中F(Ai)是Ai在文中出现的频度。与S-频度不同,T-频度反映的是C对文章所用词语的涵盖能力,体现了C与文章内容联系的紧密程度。3)概念的归纳度即概念对所属子概念的归纳能力,也即子概念的语义分布均匀度。设C 的儿子集合为{S1,S2,S3,…Sn},定义概念C 的归纳度R(C)如下: <WP=47>R(C)=1-其中Ft(Si)表示子概念Si的T-频度。4)概念的选取度综合以上分析中所定义的三项参数,本文给出概念C被选为主题概率的选取度Sel(C)公式为:Sel(C)=[log(Fs(C)+1)+β*log(Ft(C)+1)]*[R(C)+δ]其中Fs(C) ,Ft(C), R(C)分别为概念C 的S-频度、T-频度与归纳度。因为频度为0时不能取对数,所以上式中Fs(C)和Ft(C)都分别加 1 后再取对数。β与δ为加权系数,用来调整各参数之间的权重,其数值根据经验制定并结合实验结果进行优化调整。抽取出文章相应的主题概念集合后,可以把主题概念作为VSM的义项,建立空间向量模型VSM。对待处理文本中的每个段落P、句子S,将P、S包含的每个词语归入到对应的主题概念上,建立起对应向量P(T1,W1;T2,W2;…;Tn,Wn)、S(T1,W1;T2,W2;…;Tn,Wn)。其中Ti为段落、句子所含的各主题概念,Wi为Ti对应的频度。在此基础上,根据Ti在各概念层次树上的分布,可以得到P、S的概念层次树分布向量P’(Tr1,V1;…;Trn,Vn) 、S’(Tr1,V1;…;Trm,Vm)其中Tri为各概念层次树,Vi为P、S 中分布在Tri上的主题概念的总频度。两个段落间的主题相?