设为首页 - 加入收藏
广告 1000x90
您的当前位置:黄大仙综合资料大全2018年 > 句法树 > 正文

一种抽取蛋白质相互作用关系的方法pdf

来源:未知 编辑:admin 时间:2019-06-25

  /?~!@#¥……&*()——{}【】‘;:”“。,、?]); var rs = ; for (var i = 0; i

  10申请公布号CN102339362A43申请公布日20120201CN102339362ACN102339362A21申请号申请日20111108G06F19/1820110171申请人苏州大学地址215123江苏省苏州市工业园区仁爱路199号72发明人钱龙华李寿山周国栋74专利代理机构北京集佳知识产权代理有限公司11227代理人常亮李辰54发明名称一种抽取蛋白质相互作用关系的方法57摘要本发明公开了一种抽取蛋白质相互作用关系的方法,包括对自然语句进行句法分析,确定该自然语句的完全句法树,在该完全句法树中提取两个蛋白质名称之间的最短成分路径;对自然语句进行依存关系分析,确定该自然语句的依存关系树,在该依存关系树中提取两个蛋白质名称之间的最短依存路径;根据最短依存路径扩展最短成分路径,确定扩展后的成分路径为该自然语句的关系树;利用预存的分类模型对该关系树进行二元分类。本发明公开的抽取方法,关系树中包含了丰富的结构化信息,具有较好的通用性,其精度和召回率得到了提高,总体性能较好,同时减小了系统开销。51INTCL19中华人民共和国国家知识产权局12发明专利申请权利要求书2页说明书12页附图8页CN102339375A1/2页21一种抽取蛋白质相互作用关系的方法,其特征在于,用于在包含两个蛋白质名称的自然语句中抽取蛋白质相互作用关系,所述方法包括对所述自然语句进行句法分析,确定所述自然语句的完全句法树,在所述完全句法树中提取所述两个蛋白质名称之间的最短成分路径;对所述自然语句进行依存关系分析,确定所述自然语句的依存关系树,在所述依存关系树中提取所述两个蛋白质名称之间的最短依存路径;根据所述最短依存路径扩展所述最短成分路径,确定扩展后的成分路径为所述自然语句的关系树;利用预存的分类模型对所述关系树进行二元分类,当不小于0时,确定所述关系树为蛋白质相互作用关系,其中,TJ为分类模型中的支撑向量,ATJ为分类模型中的支撑向量的权重,为分类模型中的支撑向量TJ的实例,为分类模型中的支撑向量TJ的标号,Z为所述自然语句的关系树,为卷积树核函数。2根据权利要求1所述的方法,其特征在于,根据所述最短依存路径扩展所述最短成分路径的过程,包括确定所述最短依存路径中位于两个所述蛋白质名称所在的词汇结点之间的词汇结点为待处理结点组;将所述待处理结点组中的一个词汇结点作为当前词汇结点,并将所述当前词汇结点从待处理结点组中删除;确定所述当前词汇结点与其下层词汇结点之间的依存类型;当所述当前词汇结点与其下层词汇结点之间的依存类型为论元类型时,确定所述当前词汇结点处的结点词汇,在所述完全句法树中获取所述结点词汇所在结点连接到所述最短成分路径的扩充路径,所述扩充路径的一端为所述结点词汇所在的结点、另一端为所述最短成分路径中的一个结点;判断所述待处理结点组是否为空;当所述待处理结点组不为空时,将所述待处理结点组中的一个词汇结点作为当前词汇结点,并将所述当前词汇结点从所述待处理结点组中删除,执行确定所述当前词汇结点与其下层词汇结点之间的依存类型的步骤;当所述待处理结点组为空时,将所述扩充路径与所述最短成分路径合并,对所述最短成分路径进行扩充。3根据权利要求2所述的方法,其特征在于,确定所述当前词汇结点与其下层词汇结点之间的依存类型后,还包括当所述当前词汇结点与其下层词汇结点之间的依存类型为修饰类型时,确定所述当前词汇结点处的结点词汇,在所述完全句法树中获取所述结点词汇所在结点连接到所述最短成分路径的扩充路径;判断所述修饰类型是否为介词类型;若是,则从所述依存类型中提取出介词,确定所述介词为结点词汇,在所述完全句法树中获取所述结点词汇所在结点连接到所述最短成分路径的扩充路径,执行判断所述待处理结点组是否为空的步骤;若否,则执行判断所述待处理权利要求书CN102339362ACN102339375A2/2页3结点组是否为空的步骤;所述扩充路径的一端为所述结点词汇所在的结点、另一端为所述最短成分路径中的一个结点。4根据权利要求3所述的方法,其特征在于,确定所述当前词汇结点与其下层词汇结点之间的依存类型后,还包括当所述当前词汇结点与其下层词汇结点之间的依存类型为论元类型和修饰类型之外的类型时,执行判断所述待处理结点组是否为空的步骤。5根据权利要求4所述的方法,其特征在于,在对所述最短成分路径进行扩充之后,还包括判断扩充后的成分路径中是否包含父结点和子结点均为名词短语或动词短语的边,若包含,则将所述边中的子结点删除,将位于所述子结点下层的结点上移至所述子结点所在的结点,执行利用预存的分类模型对所述关系树进行二元分类的步骤,若不包含,执行利用预存的分类模型对所述关系树进行二元分类的步骤。6根据权利要求2、3或4所述的方法,其特征在于确定所述当前词汇结点与其下层词汇结点之间的依存类型的过程中,若所述当前词汇结点为所述最短依存路径的根节点,则确定所述根节点与位于其下层的任意一个词汇结点之间的依存类型。7根据权利要求1所述的方法,其特征在于,还包括提取分类模型的步骤。权利要求书CN102339362ACN102339375A1/12页4一种抽取蛋白质相互作用关系的方法技术领域0001本发明属于文本处理技术领域,尤其涉及一种抽取蛋白质相互作用关系的方法。背景技术0002蛋白质作为生命活动最主要的载体和功能执行者,其复杂多样的结构功能、相互作用和动态变化能在分子、细胞和生物体等多个层次上全面揭示生命现象。其中蛋白质相互作用关系PPI,PROTEINPROTEININTERACTION是指生命活动过程中蛋白质之间存在的相互关系,如绑定、催化、交互等。对蛋白质相互作用关系的研究有助于揭示生命过程的许多本质问题。这些关系对生物知识网络的建立,生物体关系预测,新药研制等均具有重大的意义。随着人类基因组测序的完成,蛋白质的功能、作用机制成为新的研究热点。在生物医学领域已有大量的,并且正在不断涌现的,有关蛋白质之间相互作用关系的研究文献。如何从生物医学文献中挖掘、整理出蛋白质相互作用关系是当今生物信息学的热点任务之一。0003蛋白质相互作用关系抽取就是借助于计算机这一手段从生物医学文献中抽取出生物实体蛋白质之间的相互作用关系,并为蛋白质关系网络的构建提供良好的基础。蛋白质关系抽取的方法可分为基于特征向量的方法和基于核函数的方法。在基于核函数的蛋白质相互作用关系抽取方法中,按所使用的语言信息不同,可分为基于依存关系的方法和基于句法树SYNTACTICPARSETREE的方法,并且前者可将蛋白质相互作用关系表示成最短依存路径或依存图。表征蛋白质相互作用关系抽取方法性能的参数主要包括准确率、召回率和F1性能。0004上述方法均具有缺陷最短依存路径提供了表达蛋白质关系实例的最简洁的表示方法,但是由于它由词汇及其依存关系组成,表达形式过于具体,通用性不强,因此基于最短依存路径的方法虽具有较高精度,但其召回率较低;基于依存图的方法则将与两个蛋白质相关的所有依存关系及其词汇构成一个有向图,通过计算图之间的相似度进行蛋白质相互作用关系抽取,但是由于在计算依存图之间的相似度时,只要它们有相同的子图就能实现匹配,因而依存图中包含一定的噪音,导致精度较低,并且计算依存图之间相似度所需的系统开销较大;基于句法树的蛋白质相互作用关系抽取方法则将蛋白质相互作用关系表示成句法树,虽然句法树中包含着丰富的结构化信息,但同时也含有太多的噪音,导致精度较低。因此,上述三种抽取蛋白质相互作用关系的方法,因其召回率或精度较低,导致其总体性能较差。发明内容0005有鉴于此,本发明的目的在于提供一种蛋白质相互作用关系抽取方法,以解决现有技术中总体性能较差的问题,同时提高通用度,并降低系统开销。0006为实现上述目的,本发明提供如下技术方案0007一种抽取蛋白质相互作用关系的方法,用于在包含两个蛋白质名称的自然语句中抽取蛋白质相互作用关系,所述方法包括说明书CN102339362ACN102339375A2/12页50008对所述自然语句进行句法分析,确定所述自然语句的完全句法树,在所述完全句法树中提取所述两个蛋白质名称之间的最短成分路径;0009对所述自然语句进行依存关系分析,确定所述自然语句的依存关系树,在所述依存关系树中提取所述两个蛋白质名称之间的最短依存路径;0010根据所述最短依存路径扩展所述最短成分路径,确定扩展后的成分路径为所述自然语句的关系树;0011利用预存的分类模型对所述关系树进行二元分类,当不小于0时,确定所述关系树为蛋白质相互作用关系,其中,TJ为分类模型中的支撑向量,ATJ为分类模型中的支撑向量的权重,为分类模型中的支撑向量TJ的实例,为分类模型中的支撑向量TJ的标号,Z为所述自然语句的关系树,为卷积树核函数。0012优选的,在上述方法中,根据所述最短依存路径扩展所述最短成分路径的过程,包括0013确定所述最短依存路径中位于两个所述蛋白质名称所在的词汇结点之间的词汇结点为待处理结点组;0014将所述待处理结点组中的一个词汇结点作为当前词汇结点,并将所述当前词汇结点从待处理结点组中删除;0015确定所述当前词汇结点与其下层词汇结点之间的依存类型;0016当所述当前词汇结点与其下层词汇结点之间的依存类型为论元类型时,确定所述当前词汇结点处的结点词汇,在所述完全句法树中获取所述结点词汇所在结点连接到所述最短成分路径的扩充路径,所述扩充路径的一端为所述结点词汇所在的结点、另一端为所述最短成分路径中的一个结点;0017判断所述待处理结点组是否为空;0018当所述待处理结点组不为空时,将所述待处理结点组中的一个词汇结点作为当前词汇结点,并将所述当前词汇结点从所述待处理结点组中删除,执行确定所述当前词汇结点与其下层词汇结点之间的依存类型的步骤;0019当所述待处理结点组为空时,将所述扩充路径与所述最短成分路径合并,对所述最短成分路径进行扩充。0020优选的,在上述方法中,确定所述当前词汇结点与其下层词汇结点之间的依存类型后,还包括0021当所述当前词汇结点与其下层词汇结点之间的依存类型为修饰类型时,确定所述当前词汇结点处的结点词汇,在所述完全句法树中获取所述结点词汇所在结点连接到所述最短成分路径的扩充路径;0022判断所述修饰类型是否为介词类型;若是,则从所述依存类型中提取出介词,确定所述介词为结点词汇,在所述完全句法树中获取所述结点词汇所在结点连接到所述最短成分路径的扩充路径,执行判断所述待处理结点组是否为空的步骤;若否,则执行判断所述待处理结点组是否为空的步骤;0023所述扩充路径的一端为所述结点词汇所在的结点、另一端为所述最短成分路径中的一个结点。说明书CN102339362ACN102339375A3/12页60024优选的,在上述方法中,确定所述当前词汇结点与其下层词汇结点之间的依存类型后,还包括0025当所述当前词汇结点与其下层词汇结点之间的依存类型为论元类型和修饰类型之外的类型时,执行判断所述待处理结点组是否为空的步骤。0026优选的,在上述方法中,在对所述最短成分路径进行扩充之后,还包括0027判断扩充后的成分路径中是否包含父结点和子结点均为名词短语或动词短语的边,若包含,则将所述边中的子结点删除,将位于所述子结点下层的结点上移至所述子结点所在的结点,执行利用预存的分类模型对所述关系树进行二元分类的步骤,若不包含,执行利用预存的分类模型对所述关系树进行二元分类的步骤。0028优选的,在上述方法中,确定所述当前词汇结点与其下层词汇结点之间的依存类型的过程中,若所述当前词汇结点为所述最短依存路径的根节点,则确定所述根节点与位于其下层的任意一个词汇结点之间的依存类型。0029优选的,在上述方法中,还包括提取分类模型的步骤。0030由此可见,本发明的有益效果为本发明公开的抽取蛋白质相互作用关系的方法中,从两个蛋白质之间的最短成分路径出发,使用词汇之间的依存关系来决定哪些词汇及其相关成分要加入到关系树中,最终得到一棵准确且简洁的关系树,然后再利用基于卷积树核函数的机器学习方法来抽取蛋白质之间的相互作用关系。由于这样的关系树包含了丰富的结构化信息,通用性较好,因而同基于依存路径的抽取方法相比,提高了召回率;同时本发明的关系树剔除了完全句法树中的噪音,其准确性得到了提高,因而同基于依存图的方法相比,提高了精度,并且计算树之间相似度的复杂度明显小于计算图之间相似度的复杂度,由此减小了系统开销;另外,同其它基于句法树的方法相比,通过词汇依存关系加入的信息都是必要和有用的,因而精度和召回率都得到了提高,总体性能也较好。附图说明0031为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。0032图1为本发明公开的一种抽取蛋白质相互作用关系的方法的流程图;0033图2为本发明中在完全句法树中提取两个蛋白质名称之间的最短成分路径的方法的流程图;0034图3为本发明中确定自然语句依存关系树的方法的流程图;0035图4为本发明中在依存关系树中提取两个蛋白质名称之间的最短依存路径的方法的流程图;0036图5为本发明中一种根据最短依存路径扩充最短成分路径的方法流程图;0037图6为本发明中另一种根据最短依存路径扩充最短成分路径的方法流程图;0038图7为本发明中一个自然语句的完全句法树;0039图8为从图7所示完全句法树中提取出的两个蛋白质名称之间的最短成分路径;0040图9为本发明中一个自然语句的依存关系树;说明书CN102339362ACN102339375A4/12页70041图10为从图9所示依存关系树中提取出的两个蛋白质名称之间的最短依存路径;0042图11为根据图10所示最短依存路径扩充后的成分路径;0043图12为本发明中一个自然语句的关系树。具体实施方式0044为了描述清楚起见,对下文中出现的英文缩写和术语进行说明。0045PPIPROTEINPROTEININTERACTION,蛋白质相互作用关系,是指在生命活动过程中蛋白质之间存在的某种相互作用关系,如绑定、催化、交互等;0046句法树SYNTACTICPARSETREE,是指自然语言句子的不同成分之间如词汇、词性、短语和子句等所存在的层次结构关系;0047关系树RELATIONTREE,在句法树中能表达蛋白质关系实例的结构化信息的部分;0048依存树DEPENDENCYTREE,按自然语言句子中词汇之间所存在的语法关系而构成的树,如名词和动词之间存在的主谓关系;0049准确率PRECISION,是指系统识别出的蛋白质相互作用关系实例中正确的关系实例所占的百分比;0050召回率RECALL,是指系统识别出的正确的蛋白质相互作用关系实例占所有关系实例的百分比;0051F1性能F1MEASURE,是指准确率和召回率的平均值,计算公式为F1=2PR/PR;0052PCFGPROBABILISTICCONTEXTFREEGRAMMAR,概率上下文无关文法;0053MLEMAXIMUMLIKELYESTIMATION,最大似然估计。0054为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。0055本发明公开了一种抽取蛋白质相互作用关系的方法,利用该方法在包含两个蛋白质名称的自然语句中抽取蛋白质相互作用关系的过程中,从完全句法树中抽取出能准确和简洁表达蛋白质相互作用关系实例的句法树,该句法树称为关系树,可以提高通用性、召回率和精度,从而提高整体性能,同时,与基于依存图的抽取方法相比,可以降低系统开销。0056其原理如下从两个蛋白质名称之间的最短成分路径出发,使用词汇之间的依存关系来决定哪些词汇及其相关成分要加入到该最短成分路径中,最终得到一棵准确且简洁的关系树,然后再利用基于树核函数的机器学习方法来抽取蛋白质之间的相互作用关系。0057下面结合具体实施例对本发明公开的方法进行说明。0058参见图1,图1为本发明公开的一种抽取蛋白质相互作用关系的方法的流程图。包括0059步骤S1对自然语句进行句法分析,确定该自然语句的完全句法树。0060在生物医学文献中提取一个自然语句,该自然语句中包含两个蛋白质名称,利用说明书CN102339362ACN102339375A5/12页8一种句法分析方法对该自然语句进行句法分析,得到该自然语句的完全句法树。0061本发明中采用概率上下文无关文法PROBABILISTICCONTEXTFREEGRAMMAR,PCFG的句法分析方法来获得自然语句的完全句法树。其基本思想是,一棵句法树的概率是由其包含的产生式概率决定的,产生式的概率与其出现的上下文无关,而且可以从训练语料库中采用最大似然估计MAXIMUMLIKELYESTIMATION,MLE的方法估算出来。所谓产生式,是指在句法树中由父结点推导出子结点的规则,如图6中产生式S→NPVP表示结点S句子可推导为NP名词短语和VP动词短语;产生式NP→NPPP表示结点NP可推导为NP和PP介词短语。0062每个自然语句可以有不同的句法树,每个句法树的概率都不相同,因此可以选取后验概率最大的句法树作为正确结果,即00630064其中S为一个由单词构成的自然语句,Π为该自然语句的一个可能的句法树,PS表示自然语句S的概率,PΠ,S为自然语句S和句法树Π的联合概率。联合概率值PΠ,S可由句法树Π中所有使用到的产生式R的概率的乘积的方法来得到,即00650066其中R为句法树Π的某一产生式,所有可能的产生式由PCFG的文法G给出。0067确定一个文法G和包含两个蛋白质名称的自然语句S,采用一定的搜索策略如自顶向下或自底向上产生该自然语句的所有可能的句法树,之后分别计算各个句法树的后验概率,最后从中选择后验概率最大的句法树作为该自然语句的完全句法树。0068图7就是自然语句“ASSOCIATIONBETWEENCDC25AANDCYCLINB1/CDC2WASDETECTEDINTHEHELACELLS”所对应的完全句法树。0069步骤S2在该完全句法树中提取两个蛋白质名称之间的最短成分路径。0070本发明中利用逐层匹配的方法来实现在完全句法树中提取出两个蛋白质名称之间的最短成分路径,其流程如图2所示,包括0071步骤S21在完全句法树中确定两个蛋白质名称所在的结点。0072实施中,可以通过遍历完全句法树中所有结点的方法来确定两个蛋白质名称所在的结点。通常,完全句法树中的叶子结点就是自然语句中的词汇,因此可以利用蛋白质的名称在完全句法树的各个叶子结点中进行匹配,以此确定两个蛋白质名称所在的结点。0073步骤S22寻找两个蛋白质名称所在结点的最低公共结点。0074由于在完全句法树中,每个子结点仅具有一个父结点,因此可以分别列出两个蛋白质名称所在结点各自的上层结点列表,之后再从低层逐层进行匹配,就可以找到两个蛋白质名称所在结点的最低公共结点。0075步骤S23在完全句法树中确定两个蛋白质名称所在结点与最低公共结点之间的路径,删除该路径之外的其他路径。0076确定两个蛋白质名称所在结点的最低公共结点之后,仅在完全句法树中保留两个蛋白质名称所在结点与该最低公共结点之间的路径,将完全句法树中的其他部分删除,即得到两个蛋白质名称之间的最短成分路径。说明书CN102339362ACN102339375A6/12页90077图8从图7所示完全句法树中提取出的两个蛋白质名称之间的最短成分路径。0078步骤S3对该自然语句进行依存关系分析,确定该自然语句的依存关系树。0079本发明采用确定性模型来构造自然语句的依存关系树,即词汇间的依存关系使用基于状态转换的贪婪搜索策略来逐步决定,构造过程一般伴随着状态的转换,其流程如图3所示,包括0080步骤S31利用自然语句构造初始词汇序列;0081步骤S32将初始词汇序列的第一个词汇作为左焦点词、将第二个词汇作为右焦点词;0082步骤S33判断当前的左焦点词和右焦点词之间的依存关系,若当前的左焦点词和右焦点词之间没有依存关系,则执行步骤S341,若当前的右焦点词依存于左焦点词,则执行步骤S342,若当前的左焦点词依存于右焦点词,则执行步骤S343;0083步骤S341不建立两个焦点词之间的依存关系,将当前右焦点词作为新的左焦点词,将紧邻当前右焦点词的下一个词汇作为新的右焦点词,执行步骤S35;0084步骤S342建立当前的右焦点词依存于左焦点词的依存关系,将紧邻当前右焦点词的下个词汇作为新的右焦点词,执行步骤S35;0085步骤S343建立当前的左焦点词依存于右焦点词的依存关系,将紧邻当前左焦点词的前一个词汇作为新的左焦点词,执行步骤S35;0086步骤S35判断初始词汇序列中的多个词汇是否均已建立依存关系,若否,则执行步骤S33,若是,则结束。0087实施中,可以按照各个词汇在自然语句中出现的先后顺序来构造初始词汇序列。0088下面仍以建立自然语句“ASSOCIATIONBETWEENCDC25AANDCYCLINB1/CDC2WASDETECTEDINTHEHELACELLS”的依存关系树为例进行说明。为了表述简单起见,步骤S341中的操作执行以SHIFT代替,步骤S342中的操作执行以LEFT代替,步骤S343中的操作执行以RIGHT代替。0089首先构建该自然语句的初始词汇序列“ASSOCIATION”、“BETWEEN”、“CDC25A”、“AND”、“CYCLIN”、“B1”、“/”、“CDC2”、“WAS”、“DETECTED”、“IN”、“THE”、“HELA”、“CELLS”。0090将该初始词汇序列中的第一个词汇焦点词“ASSOCIATION”设置为左焦点词,将“BETWEEN”设置为右焦点词,利用分类器判断“ASSOCIATION”和“BETWEEN”之间不存在依存关系,执行SHIFT动作;0091在执行SHIFT动作后,当前的左焦点词为“BETWEEN”、右焦点词为“CDC25A”,利用分类器判断出“CDC25A”依存于“BETWEEN”,执行LEFT动作;00920093在执行LEFT动作后,当前的左焦点词为“BETWEEN”、右焦点词为“CYCLIN”,利用分类器判断出“BETWEEN”和“CYCLIN”之间不存在依存关系,执行SHIFT动作;0094在执行SHIFT动作后,左焦点词为“CYCLIN”、右焦点词为“B1”,利用分类器判断出“CYCLIN”和“B1”之间不存在依存关系,继续执行SHIFT动作;00950096直到焦点词变为“/”和“CDC2”,再执行RIGHT动作,焦点词变为“B1”和“CDC2”,依次类推,直到初始词汇序列中的每个词汇均建立依存关系,形成一棵完整的依存关系树。说明书CN102339362ACN102339375A7/12页100097图9就是自然语句“ASSOCIATIONBETWEENCDC25AANDCYCLINB1/CDC2WASDETECTEDINTHEHELACELLS”所对应的依存关系树。0098依存关系树中的每条边表示一个依存关系,箭头所指结点为受支配者,箭尾所指结点为支配者,在依存关系树的各条边上还标示有受支配者和支配者之间的依存类型代码。0099各个依存类型代码和依存类型名称之间的对应关系如表1所示。0100表101010102步骤S4在依存关系树中抽取两个蛋白质名称之间的最短依存路径。0103本发明利用逐层匹配的方法从依存关系树中提取出最短依存路径,其流程如图4所示,包括0104步骤S41在依存关系树中确定两个蛋白质名称所在的词汇结点。0105实施中,可以通过遍历依存关系树中所有词汇结点的方法来确定两个蛋白质名称所在的词汇结点。0106步骤S42寻找两个蛋白质名称所在词汇结点的最低公共词汇结点。说明书CN102339362ACN102339375A8/12页110107由于在依存关系树中,每个子结点仅具有一个父结点,因此可以分别列出两个蛋白质名称所在词汇结点各自的上层词汇结点列表,之后再从低层逐层进行匹配,就可以找到两个蛋白质名称所在词汇结点的最低公共词汇结点。0108步骤S43在依存关系树中确定两个蛋白质名称所在词汇结点与最低公共词汇结点之间的路径,删除该路径之外的其他路径。0109确定两个蛋白质名称所在词汇结点的最低公共词汇结点之后,仅在依存关系树中保留两个蛋白质名称所在词汇结点与该最低公共词汇结点之间的路径,将依存关系树中的其他部分删除,即得到两个蛋白质名称之间的最短依存路径。需要指出的是,依存关系是有方向和类型的,如主语和谓语之间存在的依存关系类型主语类型NSUBJ,其方向是固定的,因此最后产生的最短依存路径也必须保留依存关系的类型和方向。0110图10即为从图9所示依存关系树中提取的两个蛋白质名称之间的最短依存路径。0111步骤S5根据所述最短依存路径扩展所述最短成分路径,确定扩展后的成分路径为所述自然语句的关系树。0112对蛋白质相互作用关系的抽取而言,最短依存路径和最短成分路径都是关键信息。本发明中,从最短成分路径出发,利用最短依存路径的指导来扩充最短成分路径,将完全句法树中的部分有用信息添加入最短成分路径中,从而使最后产生的关系树包含较多的关键信息和较少的噪音。其具体实现过程如图5所示,包括0113步骤S51确定最短依存路径中位于两个蛋白质名称所在的词汇结点之间的词汇结点为待处理结点组。0114将位于两个蛋白质名称所在的词汇结点之间的一个或多个词汇结点作为待处理结点,各个待处理结点可以看作一个待处理结点组。0115步骤S52将待处理结点组中的一个词汇结点作为当前词汇结点,并将当前词汇结点从待处理结点组中删除。0116步骤S53确定当前词汇结点与其下层词汇结点之间的依存类型,若当前词汇结点与其下层词汇结点之间的依存类型为论元类型,则执行步骤S541,若当前词汇结点与其下层词汇结点之间的依存类型为修饰类型,则执行步骤S5421,若当前词汇结点与其下层词汇结点之间的依存类型为论元类型和修饰类型之外的类型,则执行步骤S55。0117相邻词汇接点之间的依存类型如表1所示,主要包括论元类型ARGUMENT、修饰类型MODIFIER、并列类型CONJUCTION和其它类型OTHERS。其中,论元类型又包括主语主动态NSUBJ、主语被动态NSUBJPASS、直接宾语DOBJ和其它类型论元ARGOTHERS;修饰类型又包括名词修饰、由介词XX引导的宾语PREP_XX,其它类型修饰MODOTHER;其它类型又包括助词被动态AUXPASS和定冠词修饰DET等。0118最短依存路径中的相邻两个词汇结点之间均设置有标示两个词汇结点之间依存关系的依存类型代码,因此可以根据依存类型代码直接确定当前词汇结点与其下层词汇结点之间的依存关系。0119步骤S541确定当前词汇结点处的结点词汇,在完全句法树中获取该结点词汇所在结点连接到最短成分路径的扩充路径,执行步骤S55。0120如果当前词汇结点与其下层词汇结点之间的依存关系为论元类型,则在最短依存路径中确定当前词汇结点处的结点词汇,并在完全句法树中确定该结点词汇所在的结点,说明书CN102339362ACN102339375A9/12页12之后确定该结点连接至最短成分路径的路径,将该路径记为扩充路径。该扩充路径的一端为结点词汇所在的结点,另一端为最短成分路径中的一个结点。0121步骤S5421确定当前词汇结点处的结点词汇,在完全句法树中获取该结点词汇所在结点连接到最短成分路径的扩充路径,执行步骤S5422。0122步骤S5422判断该修饰类型是否为介词类型,若是,则执行步骤S5423,若否,则执行步骤S55。0123步骤S5423从依存类型中提取出介词,确定该介词为结点词汇,在完全句法树中获取结点词汇连接到最短成分路径的扩充路径,执行步骤S55。0124如果当前词汇结点与其下层词汇结点之间的依存关系为修饰类型,则在最短依存路径中确定当前词汇结点处的结点词汇,并在完全句法树中确定该结点词汇所在的结点,之后确定该结点连接至最短成分路径的路径,将该路径记为扩充路径。之后,如果该修饰类型是介词类型,则在依存类型中提取出介词,也就是在PREP_XX中提出介词XX,实施中XX可以为BETWEEN,ON,WITH,IN等,将该介词作为结点词汇,并在完全句法树中确定该结点词汇所在的结点,之后确定该结点连接至最短成分路径的路径,将该路径记为扩充路径。0125步骤S55判断待处理结点组是否为空,若不为空,则执行步骤S561,若为空,则执行步骤S562。0126步骤S561将待处理结点组中的一个词汇结点作为当前词汇结点,并将当前词汇结点从待处理结点组中删除,执行步骤S53。0127步骤S562将扩充路径与最短成分路径合并,对最短成分路径进行扩充。0128当最短依存关系中位于两个蛋白质名称所在词汇结点之间的各个词汇结点均进行处理后,要将获得的一个或多个扩展路径与最短成分路径进行合并,完成对最短成分路径的扩充。0129需要指出的是,如果当前词汇结点是最短依存路径中的根节点,那么当前词汇结点有两个下层词汇结点,在确定当前词汇结点与其下层词汇结点之间的依存类型的过程中,可以确定该根节点与任意一个下层词汇结点之间的依存类型。0130下面以自然语句“ASSOCIATIONBETWEENCDC25AANDCYCLINB1/CDC2WASDETECTEDINTHEHELACELLS”为例对扩展最短成分路径的过程进行说明。0131由图10所示的最短依存路径可以看到,位于蛋白质名称PROT1所在词汇结点与蛋白质名称PROT2所在词汇结点之间的词汇结点为“ASSOCIATION”所在的词汇结点,该词汇结点即为待处理词汇结点。根据“ASSOCIATION”和“PROT1”之间的依存关系类型PREPBETWEEN可以确定两者之间的依存类型为修饰类型,更具体的说是介词类型。0132此时,在完全句法树中确定结点词汇“ASSOCIATION”所在的结点,之后获取“ASSOCIATION”所在的结点连接至最短成分路径的扩充路径“ASSOCIATIONNNNPPPNP”,该扩充路径的一端为“ASSOCIATION”所在的结点、另一端为“NP”所在结点,其中“NP”所在结点为最短成分路径的根结点。0133之后,从依存类型“PREP_BETWEEN”中提取出介词“BETWEEN”,将“BETWEEN”作为结点词汇,在完全句法树中确定“BETWEEN”所在的结点,之后获取“BETWEEN”所在的结点连接至最短成分路径的扩充路径“BETWEENINPPNP”,该扩充路径的一端为“BETWEEN”所在的结点、另一端为“NP”所在结点,其中“NP”所在结点为最短成分路径的根结点。说明书CN102339362ACN102339375A10/12页130134位于蛋白质名称PROT1所在词汇结点与蛋白质名称PROT2所在词汇结点之间的词汇结点全部进行了处理,之后,将上述两个扩充路径与最短成分路径进行合并,即得到扩充后的成分路径,如图11所示。0135执行步骤S562之后的成分路径,是根据最短依存路径将完全句法树中的有用信息添加入最短成分路径形成的,在该成分路径中包含了除最短成分路径之外的有用信息,而完全句法树中的噪声数据并未添加入该成分路径。0136但是,在执行步骤S562之后形成的成分路径中,可能存在一些父结点和子结点均为名词短语NP的边、或者存在一些父结点和子结点均为动词短语VP的边,这些冗余的边会造成存储空间过大且导致蛋白质相互作用关系性能降低。0137参见图6,图6为本发明中另一种根据最短依存路径扩充最短成分路径的方法流程图。与图5所示流程的区别在于,在步骤S562之后还包括0138步骤S57判断扩充后的成分路径中是否包含父结点和子结点均为名词短语或动词短语的边,若包含,执行步骤S58,若不包含,则执行步骤S6。0139步骤S58将该边中的子结点删除,将位于该子结点下层的结点上移至该子结点所在的结点,执行步骤S6。0140实施中,可以遍历扩充后的成分路径中的全部结点,判断是否有结点为NP或VP;如果有结点为NP,则进一步判断该结点的父结点或子结点是否为NP,如果该父结点或子结点为NP,则连接这两个结点的边需要进行后续处理;如果有结点为VP,则进一步判断该结点的父结点或子结点是否为VP,如果该父结点或子结点为VP,则连接这两个结点的边需要进行后续处理。0141对图11所示扩充后的成分路径进行后续处理后的结果如图12所示,图12为自然语句“ASSOCIATIONBETWEENCDC25AANDCYCLINB1/CDC2WASDETECTEDINTHEHELACELLS”的关系树。0142步骤S6利用预存的分类模型对所述关系树进行二元分类,当不小于0时,确定所述关系树为蛋白质相互作用关系。0143需要进一步判断在步骤S5中获取的关系树是否为蛋白质相互作用关系,在获取分类模型后,可以依据下列判别式函数对测试实例即步骤S5获取的关系树进行二元分类01440145其中,TJ为分类模型中的支撑向量,ATJ为分类模型中的支撑向量的权重,为分类模型中的支撑向量TJ的实例,为分类模型中的支撑向量TJ的标号,为卷积树核函数,Z为测试关系实例,即自然语句的关系树。当F>=0时,测试实例为正例,即蛋白质相互作用关系存在,反之,则为负例。0146在本发明上述公开的一种抽取蛋白质相互作用关系的方法中,进一步设置提取分类模型的步骤。提取分类模型的过程具体为0147准备一定数量的训练实例{XI,YI}I=1N组成训练语料库,其中XI为该训练说明书CN102339362ACN102339375A11/12页14实例的关系树,YI为该训练实例的标号,该标号为1或1,其中1表示存在关系,1表示不存在关系。确定训练实例关系树的过程参见步骤S1至S5的描述。0148使用支撑向量机从训练实例中进行学习。支撑向量机是在统计理论基础上发展起来的一种新的通用学习方法,它是结构风险最小化原理的近似实现,因为它同时是最小化经验风险和VC维的界。使用支撑向量机进行学习的过程就是在高维空间中寻找一个超平面,使其最大程度地分割两个类别的数据集。该问题可转换为一个二次规划优化问题,即求下式的最大值解Α01490150同时满足下列条件01510152其中,{XI,YI}是训练语料库中的关系实例即训练实例的关系树和类别标号对,ΑI是每个训练实例的权重,C为松驰变量。通常情况下,大多数实例的权重为0,权重不为0的训练实例称为支撑向量。0153在学习过程中,计算两棵关系树的相似度,即计算核函数KXI,XJ。0154本发明采用卷积树核函数来计算两个关系树之间的相似度。所谓卷积树核函数CONVOLUTIONTREEKERNEL,CTK,即通过计算树之间的相同子树的数目来衡量两棵树之间的结构相似度,其计算公式为01550156其中,N1和N2分别为两棵关系树T1和T2的结点集合,ΔN1,N2用来计算以N1和N2为根结点的两棵子树之间的相似度,它可以通过下列递归的方法得出01571如果N1和N2的产生式采用上下文无关文法不同,则ΔN1,N2=0;否则转2;01582如果N1和N2是词性POS标记,则ΔN1,N2=Λ;否则转3;01593递归计算0160其中CHN是结点N的子结点数目,CHN,K是结点N的第K个子结点,而Λ0<Λ<1则是衰减因子,用来防止子树的相似度过度依赖于子树的大小。0161获取分类模型的过程即从训练实例中得到支撑向量及其权值的过程,分类模型可表示成{XI,YI,ΑI},I=1S,其中S为学习得到的支撑向量的个数,ΑI为该支撑向量的权值。0162本发明公开的抽取蛋白质相互作用关系的方法中,从两个蛋白质之间的最短成分路径出发,使用词汇之间的依存

  本发明公开了一种抽取蛋白质相互作用关系的方法,包括:对自然语句进行句法分析,确定该自然语句的完全句法树,在该完全句法树中提取两个蛋白质名称之间的最短成分路径;对自然语句进行依存关系分析,确定该自然语句的依存关系树,在该依存关系树中提取两个蛋白质名称之间的最短依存路径;根据最短依存路径扩展最短成分路径,确定扩展后的成分路径为该自然语句的关系树;利用预存的分类模型对该关系树进行二元分类。本发明公开的抽取方法,关系树中包含了丰富的结构化信息,具有较好的通用性,其精度和召回率得到了提高,总体性能较好,同时减小了系统开销。

  语言信息不同,可分为基于依存关系的方法和基于句法树(Syntactic Parse

  句法树:Syntactic Parse Tree,是指自然语言句子的不同成分之间(如词

  关系树:Relation Tree,在句法树中能表达蛋白质关系实例的结构化信息

  依存树:Dependency Tree,按自然语言句子中词汇之间所存在的语法关

  准确率:Precision,是指系统识别出的蛋白质相互作用关系实例中正确的

  下文无关,而且可以从训练语料库中采用最大似然估计(Maximum Likely

  Estimation,MLE)的方法估算出来。所谓产生式,是指在句法树中由父结点推

  导出子结点的规则,如图6中:产生式S→NP VP表示结点S(句子)可推导

  为NP(名词短语)和VP(动词短语);产生式NP→NP PP表示结点NP可推

  树,p(s)表示自然语句s的概率,p(π,s)为自然语句s和句法树π的联合概率。

  联合概率值p(π,s)可由句法树π中所有使用到的产生式r的概率的乘积的方法

  见,步骤S341中的操作执行以SHIFT代替,步骤S342中的操作执行以LEFT

  首先构建该自然语句的初始词汇序列:“Association”、“between”、

  将该初始词汇序列中的第一个词汇焦点词“Association”设置为左焦点词,

  “cyclin”,利用分类器判断出“between”和“cyclin”之间不存在依存关系,

  在执行SHIFT动作后,左焦点词为“cyclin”、右焦点词为“B1”,利用分

  类器判断出“cyclin”和“B1”之间不存在依存关系,继续执行SHIFT动作;

  直到焦点词变为“/”和“cdc2”,再执行RIGHT动作,焦点词变为“B1”

  和“cdc2”,依次类推,直到初始词汇序列中的每个词汇均建立依存关系,形

  在的依存关系类型——主语类型(nsubj),其方向是固定的,因此最后产生的

  S5421,若当前词汇结点与其下层词汇结点之间的依存类型为论元类型和修饰

  相邻词汇接点之间的依存类型如表1所示,主要包括论元类型Argument、

  它类型论元arg-others;修饰类型又包括名词修饰、由介词xx引导的宾语prep_

  xx,其它类型修饰mod-other;其它类型又包括助词(被动态)auxpass和定冠

  步骤S5422:判断该修饰类型是否为介词类型,若是,则执行步骤S5423,

  汇结点与蛋白质名称PROT2所在词汇结点之间的词汇结点为“Association”

  所在的词汇结点,该词汇结点即为待处理词汇结点。根据“Association”和

  “PROT1”之间的依存关系类型prep-between可以确定两者之间的依存类型

  此时,在完全句法树中确定结点词汇“Association”所在的结点,之后获

  “between”所在的结点连接至最短成分路径的扩充路径“between-IN-PP-NP”,

  该扩充路径的一端为“between”所在的结点、另一端为“NP”所在结点,其

  NP,如果该父结点或子结点为NP,则连接这两个结点的边需要进行后续处理;

  准备一定数量的训练实例{xi,yi}(i=1…N)组成训练语料库,其中xi为该

  其中,{xi,yi}是训练语料库中的关系实例(即训练实例的关系树)和类别

  其中,N1和N2分别为两棵关系树T1和T2的结点集合,Δ(n1,n2)用来计算

  1)如果n1和n2的产生式(采用上下文无关文法)不同,则Δ(n1,n2)=0;

  其中#ch(n)是结点n的子结点数目,#ch(n,k)是结点n的第k个子结点,而

  λ(0<λ<1)则是衰减因子,用来防止子树的相似度过度依赖于子树的大小。

  类模型可表示成{xi,yi,αi},i=1..S,其中S为学习得到的支撑向量的个数,αi

  亲,很抱歉,此页已超出免费预览范围啦!您可以免费下载此资源,请下载查看!

本文链接:http://solidindia.net/jufashu/222.html

相关推荐:

网友评论:

栏目分类

现金彩票 联系QQ:24498872301 邮箱:24498872301@qq.com

Copyright © 2002-2011 DEDECMS. 现金彩票 版权所有 Power by DedeCms

Top