网络流行语的自动抽取与翻译技术研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:qi_anwei1986
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的高速发展使得人们的交流变得更加方便与高效,伴随着新的交流方式,人们对语言文字的掌控与创新能力得到了空前的发展。作为网络文化的主要标志,网络流行语在近几年蓬勃发展,虽然产生于网络但已渗透到人们日常生活中。近几年来,对网络流行语的研究引起了国内外的广泛重视,研究的角度涵盖社会学、传播学、语言学等。这些研究工作初步揭示了网络流行语产生与流行的一般机理,但多拘泥于从社会科学角度的定性分析。从本质上来说,网络流行语是一种特殊的新词,对这些词汇进行自动识别是进一步处理与分析的基础。同时,随着国际交流的日益密切,如何将网络流行语自动翻译成其它语言也成为一项紧迫的任务,其对统计机器翻译、跨语言信息检索等任务的性能有显著影响。鉴于此,本文从定量的角度借助自然语言处理技术自动提取并翻译网络流行语。对流行语的提取是基于流行语在使用度上呈现出短期内快速提升与下降这一特征,通过对真实的网络论坛大量数据的分析来刻画词语在跨年度时间段上的使用提升程度,以此来量化衡量词语的流行程度。对流行语的翻译则是利用到意义相近的词语通常出现在相似的上下文中这一特征,通过可比语料库这一易于大规模获取的双语资源构建各词语的上下文向量并通过相似度衡量来抽取候选翻译。实验结果表明,采用基于真实论坛大数据抽取出的网络流行语与各种机构通过专家知识来发布的网络流行语具有较高的一致性,并且抽取出的流行语依据可比语料库中提取的上下文消息能够被较为准确的翻译。本文主要贡献在于:(1)提出了基于真实语言使用数据进行网络流行语自动提取的方法。该方法考虑了流行语在使用度上的特征,通过设计动态特征、静态特征等指标对真实的网络论坛使用数据进行分析,完成了对流行语的准确提取。(2)设计了基于可比语料库进行网络流行语自动翻译的策略。该策略通过自动采集包含流行语的可比语料库来获取词语的上下文,然后通过上下文相似度的比较来获取候选翻译词。上述工作是本领域内第一次的对网络流行语进行自动翻译的尝试,具有一定的开创性。
其他文献
文中选取灾害点密度、坡度分布、地貌类型及高程、岩土体类型、水系分布、断裂发育程度、降雨量分布、人类工程活动强度8个评价指标因子参与汉阴县地质灾害危险性评价;根据各
对电算化会计进行强化,能够促使企业内部得到更好的分析,而在制定计算机会计信息时候,要确保会计工作电算化之后,能够更为有效、安全、正常的运行。本篇文章主要针对会计电算
品牌建设日益受到重视,对中国工商银行品牌建设现状进行分析,指出了其在品牌建设方面存在的问题,最后提出加强品牌建设的策略。
自制平抛运动演示装置的各零部件均来源于生活,能有效解决实验中的同时性和瞬时性问题,并能很好地演示平抛运动在竖直方向上是自由落体运动、在水平方向上是匀速直线运动的规
提出了铸件有效浇注时间的概念 ,及在重力铸造条件下适用于所有金属铸件在各种浇注方式下的有效浇注时间计算公式 ;统计分析了铸件有效浇注时间计算公式的实用性和其较宽的适
目的探讨炼金厂氰化工段车间空气中氰化氢在各作业点的分布及作业工人个体接触水平,提出预防措施及作业工人现场某岗位操作时应注意事项。方法依据《工作场所空气中有害物质
BIM技术诞生于上世纪七十年代,不同的国家和不同的行业都在不断探索BIM所创造的价值。现阶段,工民建和轨道交通等一些领域BIM技术部分功能已推广使用,但是以碰撞检测、施工模
恶意代码是当前计算机系统安全的主要威胁之一,安全厂商和相关研究机构都很重视研究新的检测方法和技术,以便削弱恶意代码的威胁。由于当前的恶意代码普遍采用混淆技术,使得
目的研究氧诱导视网膜病变(oxygen-induced retinopathy,OIR)中cyclin D1表达的变化对视网膜新生血管增殖的影响。方法 120只鼠龄7d SD大鼠随机分为实验组和对照组2组。实验
目的通过调查海上石油作业职业卫生现状、职业病危害因素对平台作业人员身心健康危害、作业环境、个人防护、海上平台设施的基本概况、生产工艺流程、主要职业病危害因素的种