面向互联网数据的新词发现平台的设计与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:heshark
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社会在不断地发展,人类的语言也在不断的变更。语言的内涵、形式都在不断地扩充。新词的不断涌现,可以说是语言不断发展的最好证明。而QQ输入法作为文字的输入工具,也应该保证与时俱进。新词的扩充是QQ输入法的基本功能之一。词语是人们打字的最小单位,只有保证候选词的丰富,才能帮助用户提高打字速度。如何有效地发现新词是学术界关注的焦点,因为新词发现是许多技术研究的基本要求,如信息抽取、语音识别、主题发现、机器翻译等。中文信息处理与英文信息处理的方法与难点存在很大的差异,中文自身有其独特的特征,英文的词与词之间有空格间隔,而中文的词语是紧密连着的,没有词与词之间的标识;另外,英文字母也有字母大小写的区分,而中文没有。因此在自然语言处理领域,中文的新词发现是个非常棘手的问题。互联网不断地向生活的方方面面渗透,信息也在呈爆炸式增长,现有词典已经不能满足人类交流的需要,新词在源源不断的产生。如何让人类的知识储备跟上社会的发展,是一个需要认真研究探讨的问题。本文的主要研究内容是面向互联网数据的新词发现平台的设计与实现,为输入法开发一套能源源不断提供新词的新词发现平台。在方案的选取上,本文首先分析并比较了几种流行的新词发现方法,最终设计了一套基于统计和规则相结合的方法来构建新词发现平台。其中基于统计的方法为快速地处理大批量的数据提供了有效的手段,而基于规则的方法则对大规模数据的处理结果提供精确的修正算法。新词发现平台分为四大组件:隐马尔科夫模型组件、实际语料切分组件、新词候选词修正组件、新词列表维护组件。隐马尔科夫模型是需要一个长期优化和积累的部分,它对汉字的各种属性概率进行统计和计算。隐马尔科夫的“学习”内容采用的是经过语言学家处理过的语料数据。对这些语料数据进行分析和处理后就能形成一个与中国汉字相关的模型。该模型是新词提取部分切分实际语料的一个理论依据。实际语料切分就是对互联网上的数据进行初步地切分,依据的是隐马尔可夫模型原理。新词候选词修正组件是对实际语料切分组件的切分结果进行修正,以获取真正的新词。新词列表维护组件就是对新词列表信息进行维护,保证新词的正确性。新词提取的过程具体为可以概括为以下步骤:依据隐马尔科夫模型对实际数据集的初步切分;对上一步的切分结果做出初步的垃圾过滤,形成新词候选词集合;对新词候选词集合里的每一个词组进行分析,得到相关的数据集。然后对候选词进行修正算法,得到更加精确的新词结果;输出新词集合。新词词表维护的主要工作是在时间线上对已有的新词列表进行更新。更新操作包括:删除、新增、更新新词数据等。主要目的是使新词列表能跟上社会的不断发展,能准确的反映出当下最常用和最热门的词语。最终,该课题构建了一套完成以上工作的新词发现平台。经过性能测试,新词发现平台满足QQ输入法产品对发现新词的需求。
其他文献
由上海市第六人民医院普外科、上海市中山医院普外科联合主办,《中国现代普通外科进展》编辑部协办的"2009胃癌手术热点上海国际论坛"将于2009年12月12日在上海市第六人民医院
工业重回大城市,重进主城区。6月22日,济南召开会议,研究实施工业强市攻坚行动,加快推进制造业高质量发展。这是时隔15年,济南再度发出"工业强市"的号召。此前,杭州市党政代
当信息化在企业应用中的深度和广度越来越“膨胀”的时候,“信息孤岛”就如“拦路虎”一般,成为了众多企业的心头之“痛”。正是在这样的“困扰”下,基于SOA的EAI平台的设计才具
盛大游戏宣布与CNTV(中国网络电视台)联手组建合资公司,该合资公司以游戏运营和游戏媒体为主营业务,结合CNTV与盛大游戏的优势资源,在多个领域进行资源共享、平台融合、技术接轨等
"15秒钟卖掉60个集装箱的货,这是我们孵化的网红达人企鹅妈妈的战绩。"在铜陵市政府的会议室里,安徽省中盛画材文化用品有限公司、彦祖文化的联合创始人刘芳作为首讲嘉宾,为
据蓝牙技术联盟称,蓝牙4.0规范将于今年第四季度出现在耳机、智能手机和PC中。蓝牙技术联盟执行主任迈克尔·福利表示,与以往的版本相比,蓝牙4.0更适合应用在低能耗设备中,例如
热身、助跑、起跳、跨越,这个“一气呵成”的动作过程看起来容易,做起来却极难,它不仅需要个人实力,也需要外部支持。与此类似,电子政务建设在转变观念之余,同样需要“信息化”这一
1楔子2003年,NHK的导演问我,美食之于我的建筑设计有无影响,我答"没有"。
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
如何应对新时期发展给档案工作带来的机遇与挑战,保持档案工作的可持续发展,已成为档案工作者亟需研究解决的课题。档案工作者要开拓思路,更新观念,树立服务意识,实行标准化管理,提