自动主题搜索的应用研究

来源 :中国科学院研究生院(文献情报中心) | 被引量 : 57次 | 上传用户:ppcppc825406
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网上信息量爆炸性地增长,如何高效、低成本地利用Web信息资源就逐渐成为信息服务机构和最终信息用户所关注的问题。本论文研究目的就是希望通过对主题搜索的应用进行研究,探索Web主题资源的建设方法。Web主题资源自动搜索技术可以充分利用Web上大量的免费资源,自动地搜集Web主题资源,摆脱对专家的依赖,降低建设成本,提高Web主题资源建设的速度、效率和质量。 本论文的研究工作主要包含以下四个方面: (1)研究了主题搜索的基本理论和Web主题资源的建设模式,探讨Web主题资源自动搜索的相关技术,为自动主题搜索提供一个可行的研究方案,设计出一个Web主题资源自动建设的功能框架; (2)分析和实现了一个新型的多模式字符串匹配算法。该算法是以确定性有限状态自动机(DFSA)为基础,结合Quick Search算法而提出的,可以用来提高主题爬行器的网页分析和Web网页分类器的速度。经改造之后,状态自动机所占用的内存不到标准DFSA占用内存的一半,提高了多模式字符串匹配算法的性能。 (3)从社会学、文献计量学和计算机科学等角度分析了Web超链相关知识,并在经典的HITS算法基础上,设计并实现了一个Web主题资源的自动发现技术。另外,利用文献同引和文献耦合的思想,实现了查找相关网页的功能,并与Google和Alexa提供的类似功能进行比较,分析它们在查找相关网页方面的性能。 (4)分析和设计了一个合作式主题爬行器。本论文所设计的合作式主题爬行器,利用了Web超链信息和隧道技术,可以有效地提高主题资源的覆盖度和主题的准确度,在一定程度上克服了一般爬行器的固有缺陷,使得爬行网页的主题覆盖度和主题准确度不再完全依赖于种子站点的数量和质量。合作式主题爬行器适合搜索某个学科且主题宽泛的Web学术性资源。 在研究过程中,笔者采用了文献调查法、分解与合成法和实验法等研究方法,对自动主题搜索的应用方面进行了综合性研究。通过研究,本论文从理论和实践上证明了在目前的技术条件下,Web主题资源建设的自动化是可行的也是有效的,可以为数字图书馆的Web主题资源建设提供方法和技术上的支持。 本论文共包括图60幅,表10个。
其他文献
以天然物质石斛为原料,一步水热法合成高荧光量子产率的氮掺杂碳点(NCDs),通过透射电子显微镜(TEM)、X射线光电子能谱(XPS)、傅里叶变换红外光谱(FT-IR)、紫外-可见光吸收图
《宋书》,100卷,梁沈约撰。此书现存主要的本子有宋元递修本、宋元明三朝递修本、南京国子监本、北京国子监本、毛氏汲古阁本、武英殿本、金陵书局本、百衲本以及中华书局点
目的:观察凝聚胺法在交叉配血中的应用,探讨凝聚胺技术在临床输血检验中的优越性。方法观察2013年4月~2014年4月在本院采集的400例患者血液样本,分别采用凝聚按法和常规技术
患者,男,82岁。因前列腺炎到我院就诊,医生给予盐酸坦洛新缓释胶囊(哈乐)[安斯泰来制药(中国)有限公司生产,批号:Y1701],临睡前0.2mg,po,服药后出现恶心、呕吐,自述有心慌,胸闷感,继而面色苍
我院在2004年购进一台OlympusAU640生化分析仪。为了适应大量临床样本检测的要求,于2010年再次购进一台OlympusAU5421全自动生化分析仪,该仪器由两个平行模块分析系统和ISE电
为评价微表处混合料的抗水损坏性能,采用湿轮磨耗试验仪对微表处不同级配、不同含泥量进行了研究,并提出了含泥量控制标准。研究表明:级配变化对微表处混合料的抗水损坏性能
目的了解急诊科护士职业应激所致心理问题,探究其应对策略。方法选择我院急诊科护士58例,并采取心理问题相关量表如心理健康量表、护士职业应激相关量表如护士工作应激源量表
目的探讨苦参素对人膀胱癌EJ细胞的抑制作用及可能机制。方法MTT法检测EJ细胞的生长抑制率;流式细胞仪检测EJ细胞周期改变,免疫组化检测EJ细胞Ki-67表达。结果2.5mg·mL^-1
《通志堂經解》一百四十種一千八百六十卷,輯刻於清康熙朝前期,是一部重要的經部叢書。所收經解以宋、元人著作爲主,計一百三十種,故又有《宋元經解》之名。《通志堂經解》雖
《莎乐美》是王尔德实践其唯美主义思想的一部重要作品。在该剧中,王尔德颠覆经典,赋予了女主人公莎乐美鲜明的个性。莎乐美对美的疯狂热爱和追求使她将自己献上了美的祭坛。