程序设计论坛检索关键技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wangweiche
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的发展,论坛开始出现并迅速的发展壮大。目前,论坛几乎覆盖了我们日常生活和工作的各个领域,经过数年的发展和累积,论坛中蕴涵着数量巨大且质量较好的知识资源。由于论坛中的帖子更新很快,历史数据很难被重新利用。因此,怎样才能充分利用论坛平台累积的大量数据来满足用户的需求,我们需要进一步去研究和探索适合于论坛的检索技术。本文正是在这种背景下,对论坛检索的关键技术开展了研究,主要研究内容包括以下几个方面:第一,通过对程序设计论坛页面源代码的分析,同时考虑检索系统的实际需求,本文采用基于规则的方法设计论坛数据采集器,增量采集信息,将半结构化数据转换成结构化数据并利用数据库进行存储,同时还根据实际需求对采集器进行了优化。第二,本文对程序设计论坛数据特点进行了分析,并根据每个特点提出改善论坛检索效果的策略。针对论坛中水帖较多的问题,采用关键帖抽取技术,并设计了基于关键帖的采用语言模型的检索方法。针对论坛线索中一些帖子之间存在的交流关系,本文利用排序支持向量机进行论坛结构挖掘,并实现了基于论坛结构的检索方法。实验结果表明,经过关键帖抽取、论坛结构挖掘可以改进论坛检索系统的效果。第三,本文针对程序设计论坛中术语、跨语言关联、同义词较多等现象,我们通过改善分词系统、引入知识库进行查询扩展等策略来解决这些问题。最后,我们实现了一个包括检索、快照等功能的论坛检索系统。
其他文献
心电信号是一种弱电信号,在信号采集、A/D转换和放大过程中,会受到来自系统内部和外界的各种干扰。计算机网络具有连接方式多样、终端分布不均匀性和网络的开放性等特点,存在着
随着互联网和Web技术的飞速发展,传统的图书馆正在向数字化和网络化过渡,各种各样的数字资源层出不穷,给科技文献检索和查新工作带来了诸多不便。需要构建一个能够整合各种异构
由于本文致力于移动无线网络(MANET)中的安全问题与博弈论方法相结合的研究工作。MANET由于其特性,面临着多方面的,各种具有挑战性的安全问题,从底层硬件问题,软件问题,信道
说话人识别作为生物特征量识别技术,在司法鉴定、信息安全、人机智能等领域具有重要意义。本文借鉴传统语音信号分段方法,以符合人耳感知规律原则,研究新型频段划分方法,并从
本文提出了基于警示传播的启发式极性决策算法(WPDP),是一个完全算法,不但能够解决大部分难解可满足性实例,而且能够验证实例的不可满足性。它继承了Zchaff算法的基本特性,如快速
随着信息网络技术的广泛普及,各种网络应用不断深入,从传统的小型业务系统逐渐向大型的关键业务系统扩展。全球化的网络结构已经打破了传统的地域限制和办公方式。今天,跨区域工
星敏感器是一种高精度的姿态确定仪器。在过去大约30年时间里,已经研制了两代CCD星敏感器。第二代星敏感器由于指向精度高、无姿态累计误差、快速的故障恢复能力和完全自主的
系统生物学的发展使得生物建模和计算机模拟成为生物过程模拟中越来越重要的手段,可以有力地支持生物学家及其他研究人员在医学和制药等领域的研究。将生物实验的机理抽象转
随着计算机技术的快速发展,网络安全受到了前所未有的考验。缓冲区溢出攻击是威胁计算机安全的主要攻击方式。此类攻击数量繁多、危害性大,因而对缓冲区溢出问题的研究有着深
随着金融业务的发展,业务变化越来越频繁,仅依赖业务专家总结业务规则的速度已经难以跟上业务变化的速度,采用数据挖掘的方法辅助业务规则快速发现和验证具有重要的实际应用