基于Spark和DN-gram模型的定义抽取研究

来源 :北京信息科技大学学报:自然科学版 | 被引量 : 0次 | 上传用户:beginI
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从互联网海量文本中抽取出词语的定义对知识库的自动构建具有重要意义。针对定义抽取研究中N-gram语言模型携带的语义信息有限、容易产生大量稀疏数据的问题,提出了一种DN-gram语言模型。在N-gram基础上融入上下文词语间的语法依赖关系,能表达更为丰富的语言学特征;采用词形和词性的组合代替只用词形的特征选取方法来降低稀疏数据的影响;引入TF-IDF定义隶属度进行特征降维;在Spark大数据平台下采用并行定义抽取管道将互联网文本转换成特征向量,使用随机森林分类器进行学习和训练,在实验中取得了较好效果。
其他文献
探讨光纤传感中布里渊散射频率与应力的变化关系。在现有的布里渊散射频率理论公式的基础上,讨论线偏振光以不同角度入射到保偏光纤时,布里渊散射频率与应力变化的关系,得出
针对气体绝缘金属封闭开关设备(Gas Insulated Switchgear,GIS)闪络故障检测时精度低,检测费时费力的问题,设计了一种新型的GIS闪络故障监测系统,利用超声波检测法实现故障点的定位
基于位置指纹的WiFi室内定位技术是当前室内定位的研究热点。通过自学习补偿结合伪距绝对定位算法,提出基于自学习补偿的室内定位算法,并在客流分析系统中应用该算法进行客流
我国将重点扶持粮食产业、良种畜牧水产业、园艺产业、农产品加工业、农村服务业等产业发展,以进一步培育我国“一村一品”主导产品和产业.促进现代农业发展。
记者从4月17日举行的第四期万家社区图书室援建和万家社区读书活动启动仪式上了解到,从今年开始到“十一五”期末,每年将有上千种农民“读得懂、用得上”的图书,无偿送到3万-5万
一、选好催肥牛:选择好催肥牛,关键在于发现瘦牛的催肥潜力。对于饲养管理不善、饲料质量低劣或劳役过度等原因所致的瘦牛可作为首选牛。切忌购买年龄过大、患有消化道疾病、传
为了提高叶轮的加工精度,对某单位研制的中小叶轮专用加工中心的摇篮式摆台结构的静、动态性能进行了分析,对其结构进行了改进。模态及静力分析表明,其变形量明显改善。
利用Taylor级数展开的方法,给出了带有初边值条件的一维伯格方程的紧致差分格式。数值算例验证了该格式具有空间4阶精度,时间2阶精度的性质。迭代算法和块追赶法的使用提高了
相似重复记录清洗对于提高数据仓库的数据质量有极其重要的意义,字段匹配算法是最常用的检测算法之一。针对该算法中属性权值确定主观性过强的问题,提出基于多用户模糊综合评
利用智能手机中的加速度传感器,设计了一种基于iOS平台的室内定位系统。该系统无需在环境中部署定位基础设施,具有使用方便、适用范围广、成本低和定位精度高等特点。实验结