论文部分内容阅读
互联网的高速发展使得人们的交流变得更加方便与高效,伴随着新的交流方式,人们对语言文字的掌控与创新能力得到了空前的发展。作为网络文化的主要标志,网络流行语在近几年蓬勃发展,虽然产生于网络但已渗透到人们日常生活中。近几年来,对网络流行语的研究引起了国内外的广泛重视,研究的角度涵盖社会学、传播学、语言学等。这些研究工作初步揭示了网络流行语产生与流行的一般机理,但多拘泥于从社会科学角度的定性分析。从本质上来说,网络流行语是一种特殊的新词,对这些词汇进行自动识别是进一步处理与分析的基础。同时,随着国际交流的日益密切,如何将网络流行语自动翻译成其它语言也成为一项紧迫的任务,其对统计机器翻译、跨语言信息检索等任务的性能有显著影响。鉴于此,本文从定量的角度借助自然语言处理技术自动提取并翻译网络流行语。对流行语的提取是基于流行语在使用度上呈现出短期内快速提升与下降这一特征,通过对真实的网络论坛大量数据的分析来刻画词语在跨年度时间段上的使用提升程度,以此来量化衡量词语的流行程度。对流行语的翻译则是利用到意义相近的词语通常出现在相似的上下文中这一特征,通过可比语料库这一易于大规模获取的双语资源构建各词语的上下文向量并通过相似度衡量来抽取候选翻译。实验结果表明,采用基于真实论坛大数据抽取出的网络流行语与各种机构通过专家知识来发布的网络流行语具有较高的一致性,并且抽取出的流行语依据可比语料库中提取的上下文消息能够被较为准确的翻译。本文主要贡献在于:(1)提出了基于真实语言使用数据进行网络流行语自动提取的方法。该方法考虑了流行语在使用度上的特征,通过设计动态特征、静态特征等指标对真实的网络论坛使用数据进行分析,完成了对流行语的准确提取。(2)设计了基于可比语料库进行网络流行语自动翻译的策略。该策略通过自动采集包含流行语的可比语料库来获取词语的上下文,然后通过上下文相似度的比较来获取候选翻译词。上述工作是本领域内第一次的对网络流行语进行自动翻译的尝试,具有一定的开创性。