面向互联网数据的新词发现平台的设计与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：heshark

【摘要】

：

社会在不断地发展，人类的语言也在不断的变更。语言的内涵、形式都在不断地扩充。新词的不断涌现，可以说是语言不断发展的最好证明。而QQ输入法作为文字的输入工具，也应该保证与

【作者】

：

杜聪慧

【出处】

：

哈尔滨工业大学

【发表日期】

：

2013年期

【关键词】

：

新词发现中文分词隐马尔科夫模型 Viterbi算法短语修正

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

社会在不断地发展，人类的语言也在不断的变更。语言的内涵、形式都在不断地扩充。新词的不断涌现，可以说是语言不断发展的最好证明。而QQ输入法作为文字的输入工具，也应该保证与时俱进。新词的扩充是QQ输入法的基本功能之一。词语是人们打字的最小单位，只有保证候选词的丰富，才能帮助用户提高打字速度。如何有效地发现新词是学术界关注的焦点，因为新词发现是许多技术研究的基本要求，如信息抽取、语音识别、主题发现、机器翻译等。中文信息处理与英文信息处理的方法与难点存在很大的差异，中文自身有其独特的特征，英文的词与词之间有空格间隔，而中文的词语是紧密连着的，没有词与词之间的标识；另外，英文字母也有字母大小写的区分，而中文没有。因此在自然语言处理领域，中文的新词发现是个非常棘手的问题。互联网不断地向生活的方方面面渗透，信息也在呈爆炸式增长，现有词典已经不能满足人类交流的需要，新词在源源不断的产生。如何让人类的知识储备跟上社会的发展，是一个需要认真研究探讨的问题。本文的主要研究内容是面向互联网数据的新词发现平台的设计与实现，为输入法开发一套能源源不断提供新词的新词发现平台。在方案的选取上，本文首先分析并比较了几种流行的新词发现方法，最终设计了一套基于统计和规则相结合的方法来构建新词发现平台。其中基于统计的方法为快速地处理大批量的数据提供了有效的手段，而基于规则的方法则对大规模数据的处理结果提供精确的修正算法。新词发现平台分为四大组件：隐马尔科夫模型组件、实际语料切分组件、新词候选词修正组件、新词列表维护组件。隐马尔科夫模型是需要一个长期优化和积累的部分，它对汉字的各种属性概率进行统计和计算。隐马尔科夫的“学习”内容采用的是经过语言学家处理过的语料数据。对这些语料数据进行分析和处理后就能形成一个与中国汉字相关的模型。该模型是新词提取部分切分实际语料的一个理论依据。实际语料切分就是对互联网上的数据进行初步地切分，依据的是隐马尔可夫模型原理。新词候选词修正组件是对实际语料切分组件的切分结果进行修正，以获取真正的新词。新词列表维护组件就是对新词列表信息进行维护，保证新词的正确性。新词提取的过程具体为可以概括为以下步骤：依据隐马尔科夫模型对实际数据集的初步切分；对上一步的切分结果做出初步的垃圾过滤，形成新词候选词集合；对新词候选词集合里的每一个词组进行分析，得到相关的数据集。然后对候选词进行修正算法，得到更加精确的新词结果；输出新词集合。新词词表维护的主要工作是在时间线上对已有的新词列表进行更新。更新操作包括：删除、新增、更新新词数据等。主要目的是使新词列表能跟上社会的不断发展，能准确的反映出当下最常用和最热门的词语。最终，该课题构建了一套完成以上工作的新词发现平台。经过性能测试，新词发现平台满足QQ输入法产品对发现新词的需求。

其他文献

“2009胃癌手术热点上海国际论坛”会议通知

由上海市第六人民医院普外科、上海市中山医院普外科联合主办,《中国现代普通外科进展》编辑部协办的＂2009胃癌手术热点上海国际论坛＂将于2009年12月12日在上海市第六人民医院

期刊

上海市第六人民医院胃癌手术国际论坛人民医院普外科中山医院普通外科专题演讲外科专家

工业“回城”,释放什么信号

工业重回大城市,重进主城区。6月22日,济南召开会议,研究实施工业强市攻坚行动,加快推进制造业高质量发展。这是时隔15年,济南再度发出"工业强市"的号召。此前,杭州市党政代

期刊

工业强市制造业大城市党政代表团都市工业加快推进南京主城区高质量发展

SOA：物流企业的未来走向

当信息化在企业应用中的深度和广度越来越“膨胀”的时候，“信息孤岛”就如“拦路虎”一般，成为了众多企业的心头之“痛”。正是在这样的“困扰”下，基于SOA的EAI平台的设计才具

期刊

物流企业SOA“信息孤岛”企业应用信息化EAI

CNTV牵手盛大“国家队”进军网游提速

盛大游戏宣布与CNTV（中国网络电视台）联手组建合资公司，该合资公司以游戏运营和游戏媒体为主营业务，结合CNTV与盛大游戏的优势资源，在多个领域进行资源共享、平台融合、技术接轨等

期刊

国家队合资公司提速发布平台网络电视台主营业务优势资源资源共享

文化产业焕采,铜陵的底气何在

"15秒钟卖掉60个集装箱的货,这是我们孵化的网红达人企鹅妈妈的战绩。"在铜陵市政府的会议室里,安徽省中盛画材文化用品有限公司、彦祖文化的联合创始人刘芳作为首讲嘉宾,为

期刊

文化产业文化用品集装箱独特气质大讲堂铜陵市会议室

蓝牙4．0手机和PC将于今年面世

据蓝牙技术联盟称，蓝牙4．0规范将于今年第四季度出现在耳机、智能手机和PC中。蓝牙技术联盟执行主任迈克尔·福利表示，与以往的版本相比，蓝牙4．0更适合应用在低能耗设备中，例如

期刊

智能手机蓝牙PC技术联盟电子计步器钮扣电池智能仪表迈克尔

电子政务建设迈入“起跳”阶段——华为3Com为浙江政务网建设找准快速起跳的“支点”

热身、助跑、起跳、跨越，这个“一气呵成”的动作过程看起来容易，做起来却极难，它不仅需要个人实力，也需要外部支持。与此类似，电子政务建设在转变观念之余，同样需要“信息化”这一

期刊

电子政务建设起跳3Com政务网支点浙江华为动作过程

多样的胜利饮食之道与建筑之见

1楔子2003年,NHK的导演问我,美食之于我的建筑设计有无影响,我答＂没有＂。

期刊

建筑学单一性地理空间地域性建筑建造体系现代建筑

从《女科撮要》论薛己的妇科学术特色

ue＊M＃’＃dkB4＃＃8＃”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:（100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技

期刊

薛己女科撮要妇科学术特色

高校档案工作面临的新挑战与应对策略

如何应对新时期发展给档案工作带来的机遇与挑战，保持档案工作的可持续发展，已成为档案工作者亟需研究解决的课题。档案工作者要开拓思路，更新观念，树立服务意识，实行标准化管理，提

期刊

高校档案工作挑战档案管理应对策略

面向互联网数据的新词发现平台的设计与实现

与本文相关的学术论文