论文部分内容阅读
随着大数据时代的来临,数据库中存储的数据量不断地增加,关系数据库关键词检索技术得到越来越广泛的应用。传统的对于数据库的访问需要用户掌握专门的数据库查询语言以及底层的数据库模式结构,并且在查询过程中往往用户需要的结果是多个表进行连接操作得到的,这时的查询具有很高的复杂性及难度,因此对于基于关系数据库关键词检索技术的研究一直具有很高的热度。传统的关系数据库关键词检索系统在对用户输入的关键词进行查询时是使用完全匹配的方式进行的,因此查询过程中可能会丢失用户期望的结果,造成反馈给用户的结果精度较低;同时,检索过程中存在大量冗余结构的候选网络,造成检索的效率较低。针对传统的关系数据库关键词检索系统中存在的精度低和效率较低的问题,本文提出了带有词性标注的关键词检索算法PT-CNS(POS Tagging-Candidate Network Score)。本文的具体工作和贡献如下:(1)关键词的词性获取针对检索过程中没有考虑用户查询侧重点导致的精度较低的问题,本文通过词性标注工具对关键词的词性进行获取,将生成的包含关键词的元组集合按照词性进行划分。(2)关键词词性的权重分配为了对不同词性关键词对检索结果影响的分析,本文使用逻辑回归的方法对不同词性的关键词赋予权重,并对逻辑回归模型的有效性进行了评估,最终生成带有词性标注的包含关键词的元组集合,以此作为对候选网络进行评分的基础。(3)结合关键词词性的候选网络评分算法首先,针对传统的关系数据库关键词检索系统中存在大量冗余结构的候选网络导致查询效率低的问题,本文提出了基于合并网络查询方法的候选网络筛选算法,去掉候选网络中重复的结构并利用标注好的词性对候选网络进行评分。其次,由于用户期望的结果往往产生在少数候选网络中,因此本文提出了基于贝叶斯网络概率模型的候选网络评分算法,它使用贝叶斯概率模型对候选网络进行评分并结合消除冗余过程中得到的评分得到候选网络最终得分,并生成元组连接树,在数据库中进行查询从而得到结果返回给用户。通过在真实数据集上进行的广泛的试验,本文提出的算法相较于传统的关系数据库关键词检索系统的效率和有效性均有所提升。