论文部分内容阅读
随着互联网技术的发展,特别是移动互联网的兴起,信息爆炸进一步加剧,同时,信息传播出现了由系统化向碎片化过渡的倾向。短文本泛指规模较小的独立文本,其一般具有数量巨大、内容稀少、高即时性、高时效性、非规范化、无标签和信息分布不平衡中的一个或者多个特征。文本相似度算法研究主要包括文本表示和相似度度量两部分内容,其主要目的在于提供一套完整、可计算、数值化的相似度表征框架,在文本处理相关领域有着很高的理论价值和应用价值。由于传统文本相似度算法无法有效解决短文本相似度度量问题,短文本相似度算法成为新兴的研究热点。在过去十年间,短文本相似度算法研究取得了很大的进展,集中了该领域大部分研究成果。已有短文本相似度算法的研究思路主要集中在校正和扩充短文本内部符号所表达信息的层面,很少考虑短文本之间的关联信息,而且都是使用观察者的视角对相似度进行描述与猜测,并不能直接参与到语言游戏之中。因此,它们在处理非社会化甚至是非自然的语言时,很难取得好的效果。为了解决这一问题,本文在查阅大量文献和分析大量数据的基础上,提出了一种基于群体决策和优化思想的短文本相似度算法框架,并且使用某电视台的广告宣传片描述语料作为实验数据,提出了一种基于该框架的短文本相似度算法和基于该算法的广告匹配算法,同时,以此为基础开发出一套完整的异构数据库广告信息集成软件。具体来说,本文的贡献主要体现在以下方面:1.从解决实际问题所遇到的困难出发,本文提出一种基于文本元扩展的短文本相似度算法框架,该框架将短文本抽象成一个文本元,将多个短文本抽象成一个文本元集合或序列,并使用群体决策和优化思想来考量短文本上下文关系对相似度度量的影响。该框架能够在理论上包容已有的短文本相似度算法,并且文本元间相似度计算的步骤能够较好地保留这些算法已经挖掘的信息。同时,框架能够以改变文本元间相似度度量算法的方式,方便地对自身产生的相似度度量结果进行再利用,便于设计基于反馈信息的迭代相似度算法,从而设计能够真正直接参与到语言游戏中的短文本相似度算法。从系统的角度来说,该框架能够将自身的输出作为输入并获取新的信息,这是已有相似度算法都无法做到的一点,也是使用群体决策的好处之一。此外,该框架也能够同时适用于有序短文本集和无序短文本集的处理。总的来说,该框架体现了若干短文本相似度度量的新思路,可以延伸出一系列新算法,能够在一定程度上解决已有算法未覆盖的问题。2.在该框架研究基础上,本文提出一种基于短文本相似度的广告匹配算法来解决电视台广告宣传片描述语料中存在的语义异构问题。该方法使用广告宣传片描述的字面相似度作为文本元独立相似度,使用文本元序列相似度来表征广告宣传片描述之间的相似性,并使用滑动窗口方式进行广告匹配。在此基础上,本文结合关联分析中的置信度和支持度概念,提出一种应用反馈技术的一阶迭代改进算法,在真实数据集中取得了很好的匹配效果。此外,本文还结合语料特征提出了一种提前过滤候选窗口的加速方法和一种基于文本元决策相似度的匹配思路,展现了基于文本元扩展的短文本相似度算法框架在实际问题中的应用价值。3.在对短文本相似度算法进行研究以及对电视台数据库异构情况进行分析的基础上,本文严格按照软件工程理论设计并实现了基于广告匹配算法的广告智能统合系统软件,有效解决了广告匹配算法在具体应用中面临的难题,很好地完成了异构数据广告信息集成任务。该软件已经在某电视台实际运行,并在该台的广告总收视率评估系统中起着关键作用,有效促进了广告业务中的收视点成本类协议和订单的自动化管理,同时也方便了数据的共享,提高了广告输单效率。