中文文本自动标注技术研究及其应用

来源 :北京邮电大学 | 被引量 : 3次 | 上传用户:gameboy13888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的普及与发展,互联网上的信息呈爆炸式增长,尤其是web2.0时代的到来,使得普通用户可以直接参与到信息的创造当中,更是加剧了这一过程。这些信息在带给人们便利的同时,也带来了困扰。如何从海量的信息中筛选有效信息已成为迫切需要解决的问题,文本标注正是在这种背景下应运而生。本文基于复杂网络基本理论与TextRank算法对文本标注技术进行研究,并将标注的结果以可视化的形式呈现,方便用户筛选信息。本论文的主要工作包括:1.基于复杂网络的文本标注技术研究。本文以复杂网络基本理论为基础,提出一种文本自动标注算法一一EC-DC算法。该算法首先对文本进行分词、词过滤等预处理,获得候选词;接着将候选词映射为网络中的节点,候选词之间的同现关系映射为网络的边,利用离心率中心度和点度中心度衡量候选词在网络中的重要性;最终选择最重要的K个词标注文本。2,基于TextRank的文本标注技术研究。本文利用文本中的词频、词位置、词跨度等信息计算候选词的权重,利用词与词的同现关系计算词之间的距离。将候选词看作有质量的物体,其质量为词的权重。对于任意两个词,根据它们的权重和距离采用类似于万有引力的计算方法计算词之间的吸引力强度,并用该吸引力强度替代TextRank算法中词与词之间的边关系。与原有的TextRank算法相比,改进后的TextRank算法更加充分利用文本信息,不仅考虑了词的同现关系,还考虑了文本中词本身的特征信息。3.文本标注可视化。信息的可视化在大数据时代扮演着重要的角色,本文的最后实现了文本标注的可视化系统,依据上述两种算法计算的标签权重,将标签以标签云的形式呈现给用户,重要的标签在标签云中显示的字体大小、颜色更为醒目。本文基于复杂网络和TextRank算法实现文本的标注,与传统的TFIDF算法相比,这两种算法的标注结果在准确率、召回率和Fl值上均得到了提升,说明了这两种算法的有效性。同时,可视化系统将标注的结果直观地展现给用户,极大地方便了用户筛选信息,达到了预期的效果。
其他文献
<正>当一个犹太人的孩子问母亲:"如果家中着了大火,我该抢救什么呢?"母亲笑着回答:"最重要的是你要能把自己的智慧抢救出来,其他的一切都是不重要的。"幽默但又耐人寻味,智慧
提出了两种高效的合成5-苯基-2H-1,2,3-三唑-4-羧酸的方法.首先利用三氯化铝催化的苯甲醛与硝基化合物及叠氮化钠的三组分反应高效合成含有甲基或酯基的4,5-二取代的NH-1,2,3
目的探讨影响糖尿病视网膜病变(diabetic retinopathy,DR)进展的相关因素。方法 2008年1月—2009年1月采用队列研究方法对行慢病管理的2型糖尿病(type 2 diabetes mellitus,T
针对小麦条锈病、白粉病这2种病斑颜色特征相近、形状特征不明显,但在方向分布的一致性上却存在较大差别这一特点,提出了一种方向一致性描述方法。通过不同的方向核与图像卷
<正>三、改正1980年5月初,费孝通结束了对美国的第三次访问后回到北京.此时,早春已过,阳春已至.费孝通这次访美启程之前,曾在中国社会科学院上千人规模的迎春茶话会上发言,通
随着信息技术的飞速发展,当今的高校图书馆管理已经发展为一个涉及到程序设计、数据库、网络、计算机硬件和图书馆学专业知识的复杂体系,值得我们对此进行深入研究。从高校图
急性心肌梗死(AMI)早期病死率高,应及早行冠状动脉血运重建治疗以改善预后,急诊经皮冠状动脉介入治疗(PCI)对AMI患者的预后有重要意义[1],急诊PCI能尽快地明确病变血管的位置
二极管是非常重要的电子元件,在汽车上应用非常广。光电二极管把日光照射量变化转换为电流值变化信号检测出来,并将其送到MCECU,用于调整空调的吹风量与温度。很多汽车上电子仪
粮食是国民生存发展的重要战略物资,也是国家经济发展赖以生存的根本保证,能够影响国计民生等问题,其存储量、存储质量、存储安全可关系到国家经济的发展以及社会的安稳,因此
林则徐是我国近代杰出的民族英雄 ,为官一任 ,造福一方 ,一生凛然正气 ,刚直不阿 ,两袖清风。他广修水利 ,匠心独运 ,造福天下黎民 ,在我国水利建设史上占有重要的地位。 Li