【摘 要】
:
作文跑题检测任务的核心问题是文本相似度计算。传统的文本相似度计算方法一般基于向量空间模型,即把文本表示成高维向量,再计算文本之间的相似度。这种方法只考虑文本中出现
【机 构】
:
苏州大学计算机科学与技术学院,软件新技术与产业化协同创新中心,淘宝中国软件有限公司
【基金项目】
:
国家自然科学基金(61203314,61333018)
论文部分内容阅读
作文跑题检测任务的核心问题是文本相似度计算。传统的文本相似度计算方法一般基于向量空间模型,即把文本表示成高维向量,再计算文本之间的相似度。这种方法只考虑文本中出现的词项(词袋模型),而没有利用词项的语义信息。该文提出一种新的文本相似度计算方法:基于词扩展的文本相似度计算方法,将词袋模型(Bag-of-Words)方法与词的分布式表示相结合,在词的分布式表示向量空间中寻找与文本出现的词项语义上相似的词加入到文本表示中,实现文本中单词的扩展。然后对扩展后的文本计算相似度。该文将这种方法运用到英文作文的跑题检测中,构建一套跑题检测系统,并在一个真实数据中进行测试。实验结果表明该文的跑题检测系统能有效识别跑题作文,性能明显高于基准系统。
其他文献
在不同氮气分压下,采用多弧离子镀技术在不锈钢基体表面制备了光滑而致密的TiN涂层,利用光学显微镜、X射线衍射仪分别观测了TiN涂层表面形貌及涂层物相,利用显微硬度仪和电化
以锌含量为17.22%的热镀锌渣中浸渣为原料,在水热反应釜中以硫酸为浸出剂浸出其中锌。结果表明,最佳浸出条件为:硫酸体积浓度15%、浸出温度180℃、液固比6∶1、浸出时间8 h,
胡锦涛总书记在省部级主要领导干部专题研讨班上提出“牢牢把握最大限度激发社会活力、最大限度增加和谐因素、最大限度减少不和谐因素的总要求”,给社会管理及其创新指明了方
目的观察复方樟柳碱联合大剂量甲基强的松龙冲击疗法治疗外伤性视神经病变的效果。方法复方樟柳碱2mL患侧颞浅动脉旁皮下注射,每日1次,14d为1个疗程;甲基强的松龙800~1000mg(15~30m
本文从化感作用研究中淋溶作用的角度,采用土培方法,研究毛白杨不同器官及土壤水浸提液物对其幼苗生长的影响;采用高效液相色谱技术,鉴定了毛白杨不同器官中主要酚酸的种类、
沙棘(Hippophae rhanmoides L.)系胡颓子科(Elaeagnaceae)沙棘属植物,不仅具有良好的改良土壤和水土保持功能,而且有很高的药用价值。沙棘籽渣是沙棘籽榨油后的残渣,也是沙棘
城市绿地随城市化迅速扩大在改善城市生态环境的同时具有可观的碳汇效益。目前,我国已主动承诺大幅降低碳排放强度,但我国传统森林碳汇的提升难度正逐渐加大,如能准确评估城
2011年11月8日,中央组织部、中央政法委、民政部等18个部门和组织联合发布了《关于加强社会工作专业人才队伍建设的意见》(简称《意见》)。这个《意见》充分体现了党和国家对社
以铝空气电池的废电解液为原料,采用种分法生产氢氧化铝。结果表明,当种分时间为24 h、晶种系数为2%~4%时,可生产出超细氢氧化铝,且粒径分布宽度窄,阻燃性能优良,达到HG/T453
以Ni35复合WC粉末为原料,采用等离子堆焊工艺在Q235A低碳钢表面制备了镍基复合碳化钨涂层,研究了焊接电流、WC含量对复合涂层性能的影响。结果表明,降低堆焊电流,减少热量输