论文部分内容阅读
基于语义指纹和Simhash的文本去重方法研究
【摘 要】
:
随着不同类型的信息数据的增加,用户能够获取的信息量不断增多,因此搜索信息过程中投入的成本也随之提高。从信息资源集合中去除重复内容是信息资源管理的一项重要工作,可以提高用户使用信息资源的效率。目前,信息内容去重已经被应用到各种场景中。在文本去重上,能够借助于内容去重方式对文本内容识别的相似程度进行判断,该方式还能够追踪科技文献类的相似程度,从而判断文章是否为抄袭。为了提高传统文本去重算法准确率、运行
【出 处】
:
江西财经大学
【发表日期】
:
2021年09期
其他文献
当前中国金融市场中,证券公司的经纪业务收入占总收入的比重逐年下降,传统的经纪业务已经很难满足当前客户的需求,经纪业务向财富管理业务升级已经成为未来证券公司的主要趋势。随着中国经济的不断发展,自身实力的不断增强,越来越多的中国人跻身进入亿万富豪的行列,2019年中国可投资的资产超一千万的人群就已经超过200万,中国的私人财富市场的增速与前些年相比虽有些放缓,但是仍有相当广阔的空间。当前的金融市场,主
学位
近年来立案登记制改革的有效推行,根本上改善了人民群众“立案难”的问题,但这也加剧了“案多人少”的现象。“案多人少”情况在基层法院尤为明显,大量法官超负荷工作。为了能有效解决这一问题,各类辅助审判系统应运而生。目前,人工智能在刑事案件上得到较好的应用,已经基本实现智能量刑。民事案件更多地只是刚达到了信息化的水平,缺乏相关方面的深入研究。而婚姻诉讼案件一直在民事案件中的占有较高比例,近几年更是急速增多
学位