【摘 要】
:
目前,大多数文本特征抽取算法是针对特征词集进行抽取的,由于文本数据量大,且内容描述具有多义性和复杂性,以词为单元的特征抽取结果通常存在歧义.为了解决该问题,论文首先将
【机 构】
:
上海理工大学光电信息与计算机工程学院;
【基金项目】
:
国家自然科学基金项目(61003031)资助;上海市自然科学基金项目(10ZR1421100)资助
论文部分内容阅读
目前,大多数文本特征抽取算法是针对特征词集进行抽取的,由于文本数据量大,且内容描述具有多义性和复杂性,以词为单元的特征抽取结果通常存在歧义.为了解决该问题,论文首先将文本生成词序列,综合考虑了词语在词序列中有序性、可重复性和同义性,利用加权关联规则挖掘方法,对频繁词集进行组合生成特征短语.为提高计算效率,针对大规模文本数据特征短语抽取问题,采用MapReduce计算思想对所提算法进行了扩展.实验表明,该算法具有较高的运行效率,而且可以获得较为准确的特征短语.
其他文献
背景假肥大型进行性肌营养不良是由抗肌萎缩蛋白基因突所致的一种X连锁隐性遗传神经肌肉疾病,又称为杜氏或贝克肌营养不良(Duchenne’s or Becker’s muscular dystrophy;DMD
酒后驾车能否投保责任保险,不仅涉及酒后驾车肇事是否属于故意侵权,而且涉及合同自由与道德风险、威慑与补偿等社会公共政策之间的衡量。合理的制度安排应当考虑酒后驾车行为的
人们对大学生在上课过程中借助智能手机拍PPT、U盘拷贝或网络下载等手段获取教师的课件或资料,而不记纸质笔记的现象褒贬不一,争论不断.从社会、教育和技术三个层面剖析产生
<正>中国燃料电池公司上海攀业氢能源科技有限公司研发了氢燃料电池电动自行车,并开始出口到海外市场,以期在这个市场中占据有利地位。上海攀业氢能源科技有限公司表示,自今
小净距隧道的中岩柱厚度小且多次受到施工扰动,因此,如何保证其在施工过程中的稳定性是工程的重点与难点。以八达岭长城站为背景,采用Midas GTS软件对不同隧道净距下的中岩柱
在许多实际的应用系统中,需要同时测量多点温度,为了解决多支路测温需要相同参考标准的问题,保证各路参数具有可比性;巧妙地设计同基准A/D转换电路,运用低导通电阻模拟开关构
涉外税收征管必须和国际惯例接轨,这是WTO原则要求,也是中国更快地融入到全球经济一体化的进程中需要.然而我国现行涉外税收征管体系还存在制度不健全、征管体制不规范、征管
近年来,以知识密集、技术创新为基础的高新技术产业已经逐渐成为现代新经济发展的主要推动力量。随着一批高科技产业园和科技新兴产业的兴起,涌现出一批本土的创业投资企业。
学校是禾苗,学校文化就是雨露。学校文化建设决定着这个学校的发展前途和影响力,特别是物质文化、制度文化和精神文化建设对学生的发展和成长起着不可替代的作用。学校文化促
<正>一、胡金铨的武侠电影美学胡金铨的武侠电影具有强烈的艺术个性和风格,在艺术追求上保持一贯性和水平,不断深化和创新,在台港老一辈电影导演中,属于最典型的电影作家之一