基于文本相似度的版权保护系统的设计与实现

来源 :北京交通大学 | 被引量 : 1次 | 上传用户:walkeronmoon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络时代的飞速发展,网络知识版权问题备受关注,互联网领域的侵权行为日益突出,在版权意识愈来愈强的今天,主动寻求为原创内容进行版权保护的解决方案尤为重要。设计有效的版权保护系统一方面有助于保护社区平台优质原创内容的安全,另一方面为优秀的原创用户提供更优秀的产品体验功能,突出社区重视原创保护的理念,促进原创用户的社区粘性和创作动力。本学位论文从文本内容方面进行文本相似度算法在文本版权保护方面的研究,设计了在版权保护领域下文本相似度的计算方法。文本相似度算法表示采用一定的策略来比较两个文本之间的相似程度,目前文本相似度算法的研究主要有两个方向:一种是语义词典法,通过构建语义词典,将文本中的最佳关键字与词典进行匹配,通过计算匹配对的相似度来表示文本的相似度,另一种是用向量表示文本内容,通过构建空间向量模型,计算向量之间的夹角即两个向量的余弦相似值,从而得到文本的相似度。目前学术界对于版权保护有很多贡献,但在具体文本相似度匹配时往往忽略了文本的上下文语义,为了解决这一不足,本文采用了将Word2vec和LSTM相结合的方法对文本相似度进行分析,提高了文本相似度分析的准确率。以长短期记忆网络(LSTM)算法为基础,设计和实现基于特征值和特征向量的相似度计算方法。首先对语料库进行预训练,包括对文本进行预处理和特征工程,基于Word2vec构建词向量模型,为下一阶段的文本相似度计算模型提供准备。其次,对长短期记忆网络LSTM模型基于内容库语料进行训练和预测,检测句子对之间的相似性。最后设计版权保护系统,进行线上服务,对用户新发表的文章内容进行模型预测,通过返回句子之间的相似度并进行加和取平均计算文章的相似度,同时将原创内容实时更新到原创库中,并实时更新倒排索引库。通过大量对比实验,本系统所采用的基于Word2vec与LSTM的混合相似度计算策略在准确率等评价指标上均优于HowNet等计算方式,通过性能测评证明了本系统具有很好执行效率,对版权保护起到了一定作用。
其他文献
随着近几十年全球人口膨胀及经济的快速发展,能源危机、气候变暖和臭氧层耗减等问题日益严重。CO2具有良好的环保性能和优良的物理特性,是十分理想的替代工质,受到了广泛关注。
近年来,“基于性能的地震工程”倍受各国学者的关注。就目前我国“基于性能地震工程”取得的成果而言,已经取得了长足的发展。但还是存在一些问题,以建筑物震害预测方法为例:目前
应用金融衍生品可以对冲风险、节约税收、降低财务危机成本、避免投资不足等,但金融衍生品作为一种高风险性的工具,其在应用过程中带来消极后果的现象也并不少见,尤其是当衍生品应用程度较大时。企业决策中,相较于男性高管而言,女性高管显得更加谨慎、保守、风险厌恶,根据高层梯队理论,女性高管的这些特征多少会影响高管团队的风险偏好。那么,对于企业衍生品应用的相关决策,女性高管是否持支持的态度呢?进一步地,随着衍生
纵观世界范围内的不同法律模式下的刑事和解制度,我国可谓独具特色。从规范性运行向法制化运行转变的过程中,刑事和解程序的适用在纠纷解决多元化、实质化方面发挥着越来越重要
主观感受属于心理学的范畴,是人体自身的神经系统对外界事物的刺激所做出的反应。运动员的主观感受会受到外界训练环境、比赛环境、训练方法手段、运动负荷甚至是运动负荷安排
西方各国强调由中立的司法机构对审前程序进行司法审查,强调审判程序中法院对诉讼中程序问题有最终和权威的裁判权,司法审查原则已经成为一个国际准则,普遍为各国所遵循。长期以
李商隐是晚唐诗歌巨擘,他清丽的诗歌代代为人传诵,而有关他的生平、品行、仕途不顺、陷入党争、与令狐氏的关系始末等方面的问题,自宋以降,研究成果蔚为大观,而多囿于新旧两《唐书
随着社会的进步和经济时代的发展,商业文化再度繁荣。站在当前社会信息化、视觉化、艺术化、与民族化的角度审视,商业店面招牌形象无疑是一个城市形象的重要窗口,同时也构成了
周立波是20世纪著名的文学家、翻译家、革命战士。早在20世纪20年代他就踏上了文学的道路,创作出一系列经典的文学作品。在他发表第一篇小说起,评论家就开始写文章对他本人及作
证人是刑事诉讼中重要的诉讼参与人,尽管由于文化传统、社会背景的不同导致在不同国家法律中对证人的定义有所差异,但对证人在刑事诉讼中的重要性已基本形成共识。目前世界上大