基于规则与统计相融合的微博新词发现研究

来源 :北京交通大学 | 被引量 : 4次 | 上传用户:rossifish
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博新词的出现给短文本分词工作带来了极大的挑战。本文从多个角度对微博新词发现研究进行较为全面地分析。结合微博新词的构词规则自由度大和极其复杂的特点,针对信息抽取领域中传统的C/NC-value方法抽取的结果新词边界的识别准确率不高,以及低频微博新词无法正确识别的问题,提出了一种融合人工启发式规则、C/NC-value改进算法和两种统计模型(条件随机场(Conditional Random Field,CRF)和支持向量机(Support Vector Machine,SVM))的微博新词抽取方法。本文的主要贡献在于提出了一种新的微博新词发现方法,设计并实现一种二阶段规则和统计融合的方法。在多种算法融合的基础上,进行优势互补,提高微博新词的识别精度和领域适应能力,降低人工成本。本文的创新性主要体现在以下三方面:(1)采用人工启发式规则对微博新词进行分类和归纳总结,并从微博新词构词的词性、字符类别和表意符号等多个角度设计构词规则;(2)通过引入词频、邻接熵和互信息等统计量来重构NC-value目标函数,改进C/NC-value算法,提高新词识别性能;(3)通过使用改进的C/NC-value算法与CRF、SVM统计模型分别融合,达到提高新词边界识别准确率和低频新词识别精度的目的。实验结果显示,与传统方法相比,本文提出的方法能有效提高微博新词的识别精度;并可进一步提高微博文本的分词精度。
其他文献
我们生活在大数据的时代!在当今瞬息万变的商业社会,这些海量数据的快速分析和有效挖掘对商业决策制定提供了重要的依据,有时可能决定企业的命运。2006年云计算技术提出后,很
随着因特网的飞速发展,网络信息的含量急剧增长,网络信息获取的方式也多种多样。如何准确、高效地获取有价值信息成为研究人员和用户日益关注的话题。现有独立搜索引擎存在数
随着智能化程度的逐步深入,公共场合的安全形势日益严峻,如何确保公共安全成为人们关心和瞩目的焦点,而有效的身份识别技术则是确保公共安全的关键。生物特征以其安全、稳定
闪电通道的提取,是分析雷电通道特征的前提,对于雷电预警、防雷减灾和经济建设具有十分重要的意义。而视网膜血管的提取,是分析视网膜血管形态的前提,对于糖尿病、脑血管硬化
云计算作为一种新兴的网络服务方式随着网络的带宽的不断增长得到越来越广泛的关注和应用,DaaS(Database as a Service)模型是云存储中的一种新型数据库应用体系,DaaS为其客户提
人脸面部表情能够从侧面展现人心以状态,体现出人的行为信息,为我们研究人的心里活动提供了可靠的依据,人脸表情识别是建立在人脸面部丰富感情信息基础上发展起了的一门学科
随着互联网的普及,Web已经应用的各个领域,但针对于Web应用程序漏洞的攻击也越来越多,其危害程度也越来越大,虽然采取了多层的安全措施,但应用程序本身的漏洞,这些措施都无能为力,及
演变是未来通信网络发展的主旋律,未来通信网络将会演变成有线网络和无线网络融合的全IP通信网。未来无线通信系统将会把各种提供不同业务的无线接入网络连接到基于IP分组的
随着计算机科学技术的迅速发展以及互联网的普及应用,每天生活中都产生了大量的多媒体数据,这些数据大多数是以图片、视频等形式呈现的。面对如此庞大的且快速增长的多媒体数
随着互联网技术的迅猛发展,网络媒体已经成为人们日常生活中不可或缺的一种传播媒介。其中微博作为新兴典型代表之一,以极快的速度影响着社会传播格局。用户可以通过微博随时