【摘 要】
:
针对大规模语料手动标注困难的问题,提出利用概率潜在语义分析(PLSA)模型的新闻评论自动标注方法.利用PLSA计算获得语料集的'文档-主题'和'词语-主题'概率矩
【机 构】
:
广东外语外贸大学语言工程与计算实验室,广东外语外贸大学信息科学与技术学院,广东外语外贸大学东方语言文化学院
【基金项目】
:
教育部人文社会科学研究项目(14YJA740011);广州市哲学社会科学“十三五”规划2018年度课题(2018GZQN27);广东省科技计划项目(2017A040406025);国家自然科学基金(61877013)~~
论文部分内容阅读
针对大规模语料手动标注困难的问题,提出利用概率潜在语义分析(PLSA)模型的新闻评论自动标注方法.利用PLSA计算获得语料集的'文档-主题'和'词语-主题'概率矩阵;基于情感本体库和'词语-主题'概率矩阵,认为某一类情绪词汇出现的概率最高的主题与词汇的情绪类别相同,对主题进行情绪类别标注;最后,基于'文档-主题'概率矩阵,认为出现在某一主题概率最高的文档与主题的情绪类别相同,通过'词汇-主题-文档'三者的关系,达到自动标注的效
其他文献
针对大跨径桥面铺装粘结防水层的特点,介绍了改性沥青防水粘结层在高速公路沥青混凝土桥面铺装中的应用,通过对防水粘结层材料性能进行系统的试验,建立了SBS改性沥青作为防水
海量机器类型通信(massive Machine Type of Communication,mMTC),作为即将到来的第五代无线移动通信(5G)的三大应用场景之一以及物联网的典型应用场景,将为大规模的设备提供连接。在万物互联带来机遇的同时,对频谱利用率、传输延迟和数据吞吐量等方面提出了新的要求。为了应对这些挑战,非正交多址接入(Non-orthogonal multiple access,NOM
生物识别技术在个人身份认证领域有着非常重要和广泛的应用,介绍了生物识别技术中常用的指纹识别、虹膜识别、人脸识别3大技术,并对生物识别系统的性能进行了评估,对生物识别
阐述了全站仪在一些建筑工程建设过程中放样工程点、线的问题,介绍了放样长度、角度、高程点的具体步骤,提出了在建筑工程放样中应注意的问题,从而使测量人员更好地使用全站
氰化物是一种剧毒物质,其广泛应用于稀贵金属冶炼、化学工业、合成纤维工业等领域,如果中、高浓度氰化尾液直接外排会造成严重的环境污染,甚至威胁人类的生命安全,因此对氰化物污
目前的无线电正朝着软件无线电方向发展,因此如何用实现高速射频采样数据下变频到低速基带就成了一个关键问题。本文在简要介绍软件无线电的基础上,提出了利用多速率信号处理
随着计算机和信息技术的飞速发展和高等教育规模的不断扩大,虚拟实验室的建立已经成为热点和必然趋势。本论文对电力电子技术虚拟实验室的建立进行了初步研究和探索。构建电
目的观察曲安奈德以多种方式疗治疥疮结节的疗效。方法将疥疮结节患者160例随机分为A、B、C三组,用曲安奈德外擦、贴膏、皮下封闭三种方式进行治疗,同时口服氯雷他定。结果曲
目的:采用OCSI系统来评价国内外针刺治疗焦虑障碍临床随机对照试验质量。方法:收集针刺治疗焦虑障碍临床研究随机对照文献,计算机检索CBM、CNKI、VIP和万方数字化期刊网、Pub
《说文解字》中从“介”字得声的字共有17个,这些字在语音上都具有相同或相近之处,在意义上也具有相通的地方。从古文字来看“介”字的意义有多种可能,并非像许慎在《说文解字》