【摘 要】
:
汉语复句是由两个或者两个以上的分句组成的结构更加复杂的句子。在复句中起连接分句作用的成分称为关系标记词或关系词。关系词对复句中分句间的语义关系起着显式或者隐式的标识作用。因此,为了对整个复句语义进行完整且准确的理解,则必须对复句中关系搭配词进行更加深入的研究。本文以因果句中的三分句为研究主体,统计分析该类复句中关系词之间的依赖强度和跨度分布,作为重要的特征值,为复句关系词搭配知识库的建设提供支撑。
论文部分内容阅读
汉语复句是由两个或者两个以上的分句组成的结构更加复杂的句子。在复句中起连接分句作用的成分称为关系标记词或关系词。关系词对复句中分句间的语义关系起着显式或者隐式的标识作用。因此,为了对整个复句语义进行完整且准确的理解,则必须对复句中关系搭配词进行更加深入的研究。本文以因果句中的三分句为研究主体,统计分析该类复句中关系词之间的依赖强度和跨度分布,作为重要的特征值,为复句关系词搭配知识库的建设提供支撑。为了实验的准确性和可靠性,本文以汉语复句语料库CCCS(the Corpus of Chinese Compound Sentence)中的三分句为主,网上爬虫获取的三分句为辅,创建了更具代表性的因果三分句语料库,并取名为DIASC(Dependence Intensity And Span Scatter)。在DIASC语料库中,本文对48个因果类关系词进行了词频统计,并选取其中词频靠前的28个关系词作为本文的研究主体。本文首先从两个方面对汉语复句的定义做出了诠释,然后就汉语复句的分类方式进行了详细描述。接着对所有的12种类别的关系词做出了罗列,以便加深对关系词的理解。然后本文对关系词之间的依赖强度给予了新的定义和扩展,提出了新的量化计算方法,并给出了关系词对的跨度定义。接下来是依赖强度和跨度分布的双特征值的提取方法的实现,具体包括:复句的分词处理、去标点符号处理、词频统计、共现次数统计、依赖强度计算、跨度分布统计分析等等。最后得到了依赖强度大(研究价值高)的12组关系词对:“之所以-是因为”、“因为-所以”、“因-便”、“由于-就”、“因为-因此”、“由于-因此”、“因为-便”、“由于-所以”、“因为-才”、“由于-因而”、“由于-才”、“由于-致使”。且它们之间的跨度分布在2-15个词长之间。由于本文的研究是为了今后以依赖强度和跨度为要素搭建关系词搭配知识库做理论基础,所以本文对关系词搭配知识库的创建过程也做了简单的描述。最后,根据本文的实验结果,在构建关系词搭配知识库时,要选取依赖强度大的关系词对。并且在选择相关的语料时,要选取关系词对跨度在2-15个词长范围内的三分句。这样创建出来的关系词搭配知识库将具有较高的研究价值,这也为之后的深度学习打下了坚实的基础。
其他文献
敦煌醫藥文獻中的俗字、俗語詞等反映了唐五代時期敦煌地區的語言文字使用的真實面貌,但目前學界缺少對這些字、詞的斷代研究。本文以敦煌文獻中的醫藥文獻為研究材料,將俗字和俗語詞作為主要研究對象,綜合利用歷代醫藥文獻、字書和方言材料等,探討敦煌醫藥文獻中的字形釋讀和詞義訓釋問題。全文分為緒論、上下編、結語三大部分。“緒論”部分介紹了敦煌和敦煌醫藥文獻的概貌,梳理了敦煌醫藥文獻研究的現狀及其不足,並介紹了本
随着社会的进步和计算机行业的快速发展,软件系统被广泛应用于社会的各个领域,并且极大丰富和改善了现代生活。软件本质上是一个具有竞争性和千变万化的业务,随着市场、硬件和软件平台的变化而迅速变化,客户对软件质量的要求也逐渐提高,与此同时,由于软件系统的复杂性,缺陷是不可避免的,因此软件测试变得至关重要。为了提高软件测试的效率,软件缺陷预测技术应运而生,该技术可以识别出软件中易出现缺陷的文件,有助于指导资
近15年来,我国竞技健美操在国际赛事中大放异彩,三人操和五人操更是在每一届世界大赛中名列前茅。但是我国混双项目并不理想,只在第十四届世锦赛中取得季军,第十五届世锦赛中取得第八名。究其原因,我国混双项目在艺术评分方面得分较低。然而,在国际赛事中欧洲混双选手经常以出色的艺术编排取得傲人成绩。故本文以《FIG2017-2020竞技健美操规则》为依据,运用文献资料法、录像观察法、数理统计法、比较分析法等研
随着科研领域的不断探索以及通信环境的变化,出现了一类具有通信链路间歇性连接、高时延以及高误码率等特点的特殊网络,被称为容迟网络(Delay Tolerant Networks,DTN)。DTN的概念最早源于星际网络,主要用于应对间歇性连接、拓扑结构动态变化以及网络资源匮乏等极端环境。不同于传统的Internet,容迟网络中发送节点和接收节点之间在通常情况下不存在稳定的端到端传输路径,因此现有的TC
微生物对生态环境、人类健康等方面起着重要的作用,探索人类与微生物之间的复杂关系以及微生物与微生物之间的复杂关系是至关重要的,而通过微生物组时间序列数据推断微生物关联网络是探索微生物之间、微生物与人类疾病之间复杂关系的一个重要环节。随着高通量测序技术的进步,产生了大量描述微生物动态过程的高维时间序列数据,从时间序列数据中构造微生物相互作用网络可以捕捉不同微生物之间或微生物与环境之间的动态关系。本文从
本文主要介绍了在总体服从sub-Gaussian分布,且spiked协方差矩阵的特征值有重数的情况下,样本协方差矩阵特征值的极限律,相合性和中心极限定理,以及广义信息准则(GIC)的估计相合性.这改进了 Hu,Zhang,Zhu和Guo在文献[25]中的结果,他们在文献[25]中仅考虑了总体服从正态分布,且spiked协方差矩阵的特征值没有重数的情况.通过模拟发现,在信噪比(SNR)较低的情况下,
本文主要研究在一定条件下平面图DP染色问题,2017年Postle等人将平面图的列表染色推广到DP染色上,克服了列表染色的局限性.本篇文章是在黄丹君等人已证明的若平面图上每个点不同时与3-,4-,5-和6-圈相关联,则该图是4-可选的基础上,将其结果推广到DP染色上,即得到若平面图G的每个点不同时与3-,4-,5-和6-圈相关联,则图G是DP-4-可染的.主要采用反证法和最小反例的思想.首先假设G
2017年5月,国际纯粹化学和应用化学联合会(IUPAC)启动了一个全球项目——化学教育中的系统思维(STICE),提出将系统思维引入到正式的化学教学中,以培养具有系统思维视角的化学家。系统思维是指理解和解释复杂系统特征和行为的能力,能够帮助公民更好地应对可持续性、污染和气候变化等复杂的全球性挑战。在化学教育中引入系统思维,克服还原论观点只重视部分而忽略整体以及部分之间相互关系的缺陷,以帮助学生获
本文,我们将利用临界点理论,变分法以及集中紧性原理等理论方法,研究一类非线性方程组的基态解的存在性.(?)其中u∈H~1(R~3),φ∈H~1(R~3),λ>0,m与ω均为正常数.考虑A(x)为如下两种情况:如果A(.x)是正常值函数,我们证明上述问题在3<p<6时基态解(u,φ)存在;如果A(x)是非常值函数,在适当的情况下我们可以证明上述问题在4<p<6时基态解(u,φ)存在.
设Ω(?)Rd为有界可测集,若存在可数集J(?)Rd使得几乎处处成立且对任意的r,r’∈J,r≠r’时,m((Ω+r)(?)(Ω+r’))=0,其中m表示勒贝格测度,则称Ω平移tile Rd,J为对应Ω的tiling集.类似的可定义整tile和对应的整tiling集.本文主要为研究一维谱集猜想做前期准备,综述部分相关结论,具体为d=1时整tile和自相似tile的性质,主要内容分为以下两个部分:第