基于分形理论的自动摘要

来源 :吉林大学 | 被引量 : 0次 | 上传用户：gongshan

【摘要】

：

随着信息技术的发展，尤其是因特网和大规模存储介质的普及，形成了信息的汪洋大海。如何查找和利用用户所需的各类信息，为了帮助用户迅速有效地查找和利用信息，各种信息处理技术应

【作者】

：

鲁凡

【机构】

：

吉林大学

【出处】

：

吉林大学

【发表日期】

：

2004年期

【关键词】

：

分形摘要概念统计自动摘要聚类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息技术的发展，尤其是因特网和大规模存储介质的普及，形成了信息的汪洋大海。如何查找和利用用户所需的各类信息，为了帮助用户迅速有效地查找和利用信息，各种信息处理技术应运而生。文本摘要技术是一个很好解决信息超载问题的技术。当前很多摘要模型已经被人们提出，但是没有一个模型是完全基于文章节结构的。他们忽略了这样一个事实，人工摘取句子是依据文章的层次结构的。文章结构可以被描述为一些数学对象的分形。在过去，分形理论在数字图像压缩领域有很广泛的应用，这个和文本摘要在某些方面是相似的。他们都是从源文件中提取重要的信息，减少源文件的复杂性。分形摘要模型是第一个在文本摘要中应用分形理论的成果。它依据文章的重复表述运用递归决策算法来提取文章摘要。分形摘要大大提高了摘要的信息覆盖率，它健壮和透明的，用户能够容易的控制文章的压缩比率。同时，分形摘要系统产生出来的摘要具有最大的信息覆盖率、与源文件有最小的差异。分形观点是运用分形方法控制信息的显示。分形树可以便扩展成为任何逻辑树。树的根的分形权值被设为1，分形权值可以传播到子节点，一个父亲节点的权值可以按比例分到子节点上，分得的权值作为子节点的分形权值。在分形前要先设定一个初始值，用这个值来控制分形显示的数量。节点的分形权值小于初始值的节点将被隐藏起来。分形摘要的模型是基于分形显示，和分形图象压缩的模型而建立的。根据源文件的结构和描述，一个源文件被分成一些子块，形成一棵分形树。每个节点的分形权值是根据文章被分割的子块中的句子的权重的总和计算出来的。用户可以选择一个压缩率，用以指定有多少句子可以被选中作为文章的摘要。因而摘要包含的句子的限额可以被计算出来。一个节点选取句子的限额将根据它的子节点的分形权值被传播到它的子节点中。分形摘要算法：1.选择一个压缩比率和一个初始限额值threshold。2.计算出摘要应包含的句子的限额。3.把文章分成一些子块。4.把文章转换成分形树的形式。5.把分形树的根节点设成为当前节点。6. Repeat6.1 对当前节点的每一个子节点,计算子节点的分形权值。 <WP=46>6.2根据分形权值按比例分配每个子节点的句子的限额值。6.3 对每一个子节点,如果限额值n小于限额初始值threshold，则在该子块中选取的权值最大的n个句子。如果限额值n大于等于限额初始值threshold，则把该子节点设为当前节点Repeat 步骤 6.1, 6.2, 6.37. 当前节点的所有子节点都处理完成跳出循环.在分形摘要中采用了基于概念统计的主题特征的提取方法。由于文章修辞的需要或文章风格的差异，经常出现用词比较简捷，同义替换的现象。因此，仅仅依靠特征项的重复而产生的频率信息是完全不够的。注意这样一个事实，同一层次的若干自然段，由于共同支持该层次所表达主题思想，因此选用的词汇可能出现同义替换，但表达的概念却是一致的，如果将特征项映射至概念级，无疑将有助于加强同一层次内段落间的聚合能力。在基于概念统计的特征提取中主要的四个定义。1）概念的S-频度即概念所在文章中直接出现的次数。本文把待处理文本中直接表达概念C的词语次数定义为C的S-频度（Self Frequency）。设原文中语义概念为C的词的集合为{W1,W2,W3,…Wn},则概念C的S-频度Fs（C）为：Fs（C）＝其中F（Wi）是词语Wi在文中出现的频度。2）概念的T-频度即概念自身及所属全部子概念在文章中出现的次数。本文将以C为根结点的子树所含概念的总频度称为C的T-频度（Tree Frequency）。设概念C的后代集合为{A1,A2,…,An},定义C的T-频度FT（C）为：FT(C)=F(C)+ 其中F（Ai）是Ai在文中出现的频度。与S-频度不同，T-频度反映的是C对文章所用词语的涵盖能力，体现了C与文章内容联系的紧密程度。3）概念的归纳度即概念对所属子概念的归纳能力，也即子概念的语义分布均匀度。设C 的儿子集合为{S1,S2,S3,…Sn}，定义概念C 的归纳度R(C)如下： <WP=47>R(C)=1-其中Ft（Si）表示子概念Si的T-频度。4)概念的选取度综合以上分析中所定义的三项参数，本文给出概念C被选为主题概率的选取度Sel（C）公式为：Sel(C)=[log(Fs(C)+1)+β*log(Ft(C)+1)]*[R(C)+δ]其中Fs(C) ,Ft(C), R(C)分别为概念C 的S-频度、T-频度与归纳度。因为频度为0时不能取对数，所以上式中Fs(C)和Ft(C)都分别加 1 后再取对数。β与δ为加权系数，用来调整各参数之间的权重，其数值根据经验制定并结合实验结果进行优化调整。抽取出文章相应的主题概念集合后，可以把主题概念作为VSM的义项，建立空间向量模型VSM。对待处理文本中的每个段落P、句子S，将P、S包含的每个词语归入到对应的主题概念上，建立起对应向量P（T1，W1;T2,W2;…;Tn,Wn）、S（T1，W1;T2,W2;…;Tn,Wn）。其中Ti为段落、句子所含的各主题概念，Wi为Ti对应的频度。在此基础上，根据Ti在各概念层次树上的分布，可以得到P、S的概念层次树分布向量P’(Tr1,V1;…;Trn,Vn) 、S’(Tr1,V1;…;Trm,Vm)其中Tri为各概念层次树，Vi为P、S 中分布在Tri上的主题概念的总频度。两个段落间的主题相?

其他文献

基于QoS的网格资源协同预留模块研究与设计

网格计算是构筑在Internet上的一组新兴技术，利用共享网络将分散在不同地理位置的计算资源、存储资源、网络资源组织成一台虚拟的超级计算机，提供强大的计算能力。QoS(Quality

学位

网格Globus资源管理预留QoS

智能化刺绣CAD中若干图像处理问题的研究

智能化刺绣CAD是伴随CAD的迅猛发展而不断发展起来的一个应用于刺绣行业进行针位数据编程的软件系统。随着计算机技术的不断进步，电脑刺绣机的性能在不断提高，功能不断完善，促进

学位

智能化刺绣计算机辅助设计图像处理图像自动编针电脑刺绣

电子对抗仿真研究——虚拟频谱分析仪的设计与实现

虚拟仪器就是在通用计算机平台上,用软件实现传统测试仪器的功能.它有许多优点,代表了当今仪器发展的方向.频率分辨力是频谱仪的关键性能指标,在这个性能上,FFT或频谱仪好于

学位

频谱仪虚拟仪器MATLAB

汉语语音合成中韵律结构预测的研究与实现

语音合成是当今计算机智能应用领域的研究热点,目前它越来越广泛的应用于社会生活的各个方面,提高了人机交互性,发挥了很好的社会效益.但现阶段语音合成中存在的普遍问题是:

学位

韵律短语界定语句重音神经网络基音同步叠加

目录服务与在线证书状态验证系统研究

基于公钥密码技术构建的公钥基础设施(PKI)是目前公认的解决大型开放网络环境下信息安全问题最可行、最有效的办法。以实用的企业级PKI系统的设计与开发为背景，从理论和实际应

学位

公钥基础设施目录服务轻型目录访问协议在线证书状态验证在线证书状态协议

无线应用环境中移动中间件的研究

计算机技术和网络技术以惊人的速度在发展更新着，信息技术的应用正逐渐渗入生活和工作的每一个领域。近年来，移动计算设备和无线网络的迅猛发展在IT界显得格外的耀眼。各式各样

学位

无线应用移动应用移动中间件移动计算中间件移动设备无线网络

基于表示学习的中文短文本对话分析方法研究

对话场合无处不在，产生的对话文本中蕴含着丰富的信息，不仅承载着人们谈论的主题，而且可体现出说话人的情感、态度和观点，具有很广泛的用途。近年来，深度神经网络在图像分类、语音

学位

中文短文本对话分类深度神经网络注意力机制表示学习

基于遗传算法的过程神经网络研究与应用

随着神经网络技术的发展,结合实际应用中大多数系统的输入往往是一个过程的实际情况,何新贵院士提出了过程神经网络的概念,证明了过程神经网络模型的连续性定理、逼近定理、

学位

过程神经网络混合遗传算法泛化能力网络结构网络结构构造算法过程神经网络预测模型

UNITY-863系统芯片中AHB-PCI桥接器的验证

现代SoC设计日益复杂,基于IP复用技术的SoC设计方法逐渐成为一种主流方法.目前SoC领域面临诸多需要解决的问题,IP模块及SoC验证影响整个SoC的成败,是其中的关键问题.在北京大

学位

AHB-PCI桥接器验证系统芯片知识产权核总线功能模型

草图识别系统设计及其关键技术研究

随着计算机处理性能的高速发展，人类越来越关注控制和使用计算机的方式。笔式交互(Pen-basedHumanComputerInteraction)以模拟现实的纸和笔为目标，它通过将用户的交互意图映射

学位

笔式交互技术人机交互草图识别用户模型化智能型人机交互草图识别系统

基于分形理论的自动摘要

与本文相关的学术论文