基于Spark和DN-gram模型的定义抽取研究

来源 :北京信息科技大学学报：自然科学版 | 被引量 : 0次 | 上传用户：beginI

【摘要】

：

从互联网海量文本中抽取出词语的定义对知识库的自动构建具有重要意义。针对定义抽取研究中N-gram语言模型携带的语义信息有限、容易产生大量稀疏数据的问题,提出了一种DN-gr

【作者】

：

于洁

【机构】

：

福建信息职业技术学院计算机工程系

【出处】

：

北京信息科技大学学报：自然科学版

【发表日期】

：

2017年4期

【关键词】

：

知识发现文本分类定义抽取 SPARK DN-gram knowledge discovery text classification definitio

【基金项目】

：

福建省教育厅科技项目(JA11304)

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

从互联网海量文本中抽取出词语的定义对知识库的自动构建具有重要意义。针对定义抽取研究中N-gram语言模型携带的语义信息有限、容易产生大量稀疏数据的问题,提出了一种DN-gram语言模型。在N-gram基础上融入上下文词语间的语法依赖关系,能表达更为丰富的语言学特征;采用词形和词性的组合代替只用词形的特征选取方法来降低稀疏数据的影响;引入TF-IDF定义隶属度进行特征降维;在Spark大数据平台下采用并行定义抽取管道将互联网文本转换成特征向量,使用随机森林分类器进行学习和训练,在实验中取得了较好效果。

其他文献

基于布里渊散射的光纤传感特性分析

探讨光纤传感中布里渊散射频率与应力的变化关系。在现有的布里渊散射频率理论公式的基础上,讨论线偏振光以不同角度入射到保偏光纤时,布里渊散射频率与应力变化的关系,得出

期刊

布里渊散射入射角频率变化应变Brillouin scattering angle of incidence frequency change st

GIS闪络故障定位系统中信号的处理与传输

针对气体绝缘金属封闭开关设备（Gas Insulated Switchgear，GIS）闪络故障检测时精度低，检测费时费力的问题，设计了一种新型的GIS闪络故障监测系统，利用超声波检测法实现故障点的定位

期刊

气体绝缘金属封闭开关设备闪络故障定位三运放差分电路小波去噪ZIGBEE协议gas insulated switchgear （GIS） flash

基于自学习补偿的室内定位及在客流分析中的应用

基于位置指纹的WiFi室内定位技术是当前室内定位的研究热点。通过自学习补偿结合伪距绝对定位算法,提出基于自学习补偿的室内定位算法,并在客流分析系统中应用该算法进行客流

期刊

室内定位自学习补偿WLAN指纹算法indoor positioning self learning compensation WLAN fingerp

我国将重点扶持发展农村五大产业

我国将重点扶持粮食产业、良种畜牧水产业、园艺产业、农产品加工业、农村服务业等产业发展，以进一步培育我国“一村一品”主导产品和产业．促进现代农业发展。

期刊

大产业农村农产品加工业粮食产业园艺产业产业发展农业发展主导产品水产业

农村图书室援建工程启动

记者从4月17日举行的第四期万家社区图书室援建和万家社区读书活动启动仪式上了解到，从今年开始到“十一五”期末，每年将有上千种农民“读得懂、用得上”的图书，无偿送到3万-5万

期刊

书室农村工程读书活动村委会社区农民

春季瘦牛育肥要点

一、选好催肥牛：选择好催肥牛，关键在于发现瘦牛的催肥潜力。对于饲养管理不善、饲料质量低劣或劳役过度等原因所致的瘦牛可作为首选牛。切忌购买年龄过大、患有消化道疾病、传

期刊

瘦牛育肥春季消化道疾病饲养管理饲料质量传染病肥牛催肥选牛

发动机叶轮加工中心摆转台设计

为了提高叶轮的加工精度,对某单位研制的中小叶轮专用加工中心的摇篮式摆台结构的静、动态性能进行了分析,对其结构进行了改进。模态及静力分析表明,其变形量明显改善。

期刊

叶轮加工中心摇篮式摆台静、动态分析impeller machining center cradle swing sets static and

伯格方程的紧致差分格式

利用Taylor级数展开的方法,给出了带有初边值条件的一维伯格方程的紧致差分格式。数值算例验证了该格式具有空间4阶精度,时间2阶精度的性质。迭代算法和块追赶法的使用提高了

期刊

伯格方程紧致差分格式迭代算法块追赶法Burger＇s equation compact difference scheme iterative al

基于模糊综合评判的相似重复记录清洗方法

相似重复记录清洗对于提高数据仓库的数据质量有极其重要的意义,字段匹配算法是最常用的检测算法之一。针对该算法中属性权值确定主观性过强的问题,提出基于多用户模糊综合评

期刊

相似重复记录属性模糊综合评判算法approximately duplicated recordsattributefuzzy comprehen

基于iOS的室内定位系统设计与实现

利用智能手机中的加速度传感器,设计了一种基于iOS平台的室内定位系统。该系统无需在环境中部署定位基础设施,具有使用方便、适用范围广、成本低和定位精度高等特点。实验结

期刊

室内定位航迹推断IOS加速度传感器indoor positioning track deduction iOS accelerometer

基于Spark和DN-gram模型的定义抽取研究

与本文相关的学术论文