基于重复字串的微博新词非监督自动抽取

来源 :合肥工业大学学报：自然科学版 | 被引量 : 0次 | 上传用户：z58119366

【摘要】

：

文章基于重复字串的统计特征，同时分析微博中存在的口语化语言特点制定相应的语言规则，采用统计和规则相结合的方法，首先对微博的语料进行分词，然后从分词碎片中提取重复出现2次

【作者】

：

孙晓李承程叶嘉麒任福继

【机构】

：

合肥工业大学计算机与信息学院,情感计算与先进智能机器安徽省重点实验室

【出处】

：

合肥工业大学学报：自然科学版

【发表日期】

：

2014年6期

【关键词】

：

自然语言处理中文分词重复字串分词碎片 natural language processingChinese word segmentationrepeat

【基金项目】

：

基金项目：国家自然科学基金资助项目（61203315）,国家高技术研究发展计划（863计划）资助项目（2012AA011103）和安徽省科技攻关计划资助项目（1206c0805039）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文章基于重复字串的统计特征，同时分析微博中存在的口语化语言特点制定相应的语言规则，采用统计和规则相结合的方法，首先对微博的语料进行分词，然后从分词碎片中提取重复出现2次及2次以上的新词，通过多层过滤，得到最终的候选新词。实验结果证明，该方法有效地保证了较高的准确率和召回率，同时保证了新词的抽取速度。

其他文献

物理学家的研究思想在高中物理教学中的显化

通过把物理学史中的一些原始实验和课堂中的探究实验相结合，然后再提炼思想方法，把物理学家的研究思想在高中的教学中显化出来．

期刊

物理学史研究思想原始实验探究实验

论激发学生学习物理兴趣的5个途径

结合认知科学的原理及自身的教学体会,就如何在物理课堂教学中激发学生的学习兴趣,论述了5个途径：让物理实验引人入胜;组织好物理学史的故事性与未知性;让物理与学生生活紧密

期刊

物理课堂教学学习兴趣

网络环境下学生学习方式的转变

《基础教育课程改革纲要（试行）》中明确提出：“大力推进信息技术在教学过程中的普遍应用,促进信息技术与学科课程的整合,逐步实现教学内容的呈现方式、学生的学习方式、教师的教

期刊

学习方式学生网络环境信息技术阅读教学教育工作者教学过程课程改革

基于黄金分割搜索的光伏阵列最大功率点跟踪方法

为了获得太阳能光伏阵列最大功率输出，需要对光伏阵列最大功率点实行跟踪，针对传统M PPT 算法的不足，文章引入变步长黄金分割搜索法，其原理是动态改变步长确定搜索范围，再通过迭代

期刊

光伏阵列最大功率点跟踪黄金分割搜索算法MATLABSIMULINK仿真photovoltaic array maximum power point t

表达，一切都是表达——当代国际摄影双年展“最佳摄影奖”获得者张鲜明访谈

他迎面走来，跨着相机，背着电脑，神采飞扬，急匆匆，像一阵风，好像有重大事件发生，或者正在冲向战场。与人拉家常、寒暄，他显得有点笨拙，有时还有点轻微的口吃，可一旦进入他感兴趣的话题，譬

期刊

摄影奖双年展鲜明国际重大事件报告文学

基于站点场强理论的城市轨道交通主干线网规划

文章提出了一种基于站点场强理论的轨道交通主干线网规划方法，效仿真空点电荷形成电场强度的物理原理，提出站点场强概念，构建站点场强模型。利用该模型在确定线路有效走行域的基

期刊

城市轨道交通站点场强线网规划urban rail transitsite field intensitynetwork planning

我的“南水北调中线行”采访活动

引言在2010年河南省新闻媒体座谈会上，省委书记、省人大常委会主任卢展工提出了新闻宣传有“四难”，即正面报道难、典型宣传难、舆论监督难和新闻创新难，并要求各级新闻媒体努力

期刊

采访活动南水北调人大常委会主任中线新闻媒体新闻宣传2010年省委书记

基于重复字串的微博新词非监督自动抽取

其他学术论文