【摘 要】
:
由于短文本具有词频单一、结构简单等特点,基于传统特征选取方法的文本去重算法不适合短文本。为此,提出一种适合短文本特点的去重算法,利用SimHash算法产生短文本的指纹,使
【机 构】
:
复旦大学计算机科学技术学院上海市数据科学重点实验室
【基金项目】
:
国家科技支撑计划基金资助项目(2012BAH13F02), 上海市科委基金资助项目(12511502403,12511509602)
论文部分内容阅读
由于短文本具有词频单一、结构简单等特点,基于传统特征选取方法的文本去重算法不适合短文本。为此,提出一种适合短文本特点的去重算法,利用SimHash算法产生短文本的指纹,使用共享最近邻算法对指纹进行聚类,根据聚类结果增删初始特征,迭代直至收敛,从而实现短文本的去重检测。在真实数据集上的实验结果表明,与现有的文本去重算法相比,该算法对于短文本具有更好的去重效果。
其他文献
依据在认知无线电网络中,既要保证主用户的服务质量不受影响,又要维持次用户的基本通信的要求,基于用户的呼叫层和分组层策略,以排队论为数学基础,提出认知无线电网络的跨层
公司多元化对资本成本产生什么影响?现有研究主要从合并报表层面探讨上市公司整体的多元化经营与资本成本的关系,而没有考虑到上市公司对子公司股权投资形成的母子公司多主体
<正>近日,中国电子科技集团第14研究所传出捷报,在量子雷达领域取得了突破,达到国际先进水平。研究所经过不懈地努力,完成了量子探测机理、目标散射特性研究以及量子探测原理
党的十八大以来,以习近平同志为核心的党中央在涉港澳事务的外交理论与实践方面取得重大进展。习近平涉港澳事务的外交理论,将国家统一与中华民族伟大复兴结合起来,坚决反对
油炸方便面一般会残留过多的油脂及其衍生物,向面团中加入一定量的食品添加物可以减少油炸方便面油脂及其衍生物的残留,对食品安全具有重要意义。近年来研究发现的主要添加物
无线传感器网络( WSN)节点由于自身体积及监测环境等因素的影响,其可携带的能量有限。因此,延长网络的生存周期、均衡WSN各节点的剩余能量即成为该领域的研究热点。针对星型可分
随着我国经济的持续快速发展,农村经济爆发出了前所未有的活力和潜力,农村金融市场的地位也受到了社会各界的极大关注。但是由于各种原因的存在导致我国的农村金融市场发展受
现有的协同过滤算法在计算用户间或项目间相似度时,由于数据集稀疏导致相似度差值过小,难以找出真正的相似用户与相似项目.为此,提出一种融合影响因子的加权协同过滤算法.利
四台矿是大同煤矿集团主力生产矿井之一,井田位于大同煤田西北部,南北长约13.8公里,东西宽约8公里,面积约65.46平方公里。1984年12月开工建设,1991年12月13日正式投产,设计开