HLA组织匹配及用于其的方法与流程

文档序号:20921932 发布日期:2020-05-29 14:15
HLA组织匹配及用于其的方法与流程

本申请要求2017年9月6日提交的序列号为62/554,655的美国临时申请的优先权。

本发明的领域是用于移植前组织匹配的系统和方法,尤其涉及计算机hla确定。



背景技术:

以下描述包括可用于理解本发明的信息。并不是承认本文提供的任何信息是现有技术或与当前要求保护的发明相关,或者任何具体或隐含引用的出版物是现有技术。

hla分型在移植各种实体器官和干细胞的实践中仍然是关键的,并且存在本领域已知的各种系统和方法来确定患者的hla分型。最通常地,使用湿化学/血清学方法或经由核酸分析,特别是测序或基于pcr的方法来进行hla分型。这些方法在许多情况下是令人满意的,并且将提供相对准确的结果。然而,最常见的方法将需要大量时间并且通常相对昂贵,尤其是在要分析大量群体的情况下。

为了解决与常规方法相关的至少一些缺点,如us2011/0117553中所述可以采用巢式/串联pcr,其通常使用原始血液样品。在如us2003/0165884中所教导的适于高通量测定的其他方法中,采用组合式扩增和基因座特异性捕获探针。类似地,us7917297描述了在固相上的各种不同捕获核苷酸的阵列以能够快速分析。遗憾地是,由于hla等位基因之间的杂交差异通常仅仅是非常小的,这种系统通常不能进行高度准确的hla确定。本文中的所有出版物和专利申请通过引用并入,其程度如同每个单独的出版物或专利申请被具体地和单独地指示为通过引用并入。当并入的参考文献中的术语定义或使用与本文提供的该术语定义不一致或相反时,适用本文提供的该术语定义,并且不适用参考文献中对该术语的定义。

最近,描述了计算机实施的方法,其使用例如外显子组测序数据来确定hla分型,如us2016/0125128中所讨论的。在其他实例中,如us2015/0110754中所教导的,采用序列数据的概率分析来确定最可能的hla分型,并且wo2017/035392描述了使用德布鲁因(debruijn)图的计算机分析。值得注意的是,这些方法相对较快,但尚未采用于较大样品群体。

因此,尽管本领域已知有各种用于hla分型的系统和方法,但仍需要提供用于hla分型,特别是计算机hla分型的改进的系统和实施方式。



技术实现要素:

本发明的主题提供其中对大量样品进行hla分析以提供生物信息学数据库的设备、系统和方法,该数据库有助于鉴定供体/受体匹配。例如,当对于液体肿瘤需要骨髓干细胞移植时,首先建立所有骨髓和脐带血供体的完整和详细的hla分析。然后,这种独特的数据库可以用作任何需要骨髓或脐带血捐献的受体的生物信息学通用引擎。在另一个实例中,对于实体器官移植,对等待移植的所有受体进行完整的先验序列分析以确定hla分型。一旦供体器官可用,该数据库可以成为最精细的hla水平(包括次要等位基因和罕见等位基因)的通用匹配引擎。因此,应该理解,本文所提出的系统和方法对大量供体和/或受体以高度准确和全面的水平提供供体和受体的快速匹配。

在本发明主题的一个方面,发明人设想了一种匹配供体组织和受体组织的方法,其包括获得多个供体样品的组学数据的步骤,其中每个样品是脐带血或骨髓样品,以及使用计算机算法确定每个供体样品的hla分型以获得供体登记档(donorregistry)的另一步骤。在又一步骤中,使用供体登记档以将供体样品(例如,脐带血)之一鉴定为相容于具有匹配的hla分型的受体。

同样,在本发明主题的另一方面,发明人设想了匹配供体组织和受体组织的方法,其包括获得多个受体的组学数据的步骤,其中每个受体是实体器官受体,以及使用计算机算法确定每个受体的hla分型以获得受体登记档的另一步骤。在又一步骤中,使用供体登记档以将受体之一鉴定为相容于具有匹配hla分型的供体器官(例如,肺、肝、心脏或皮肤)。

关于所设想方法的组学数据,外显子组测序数据、全基因组测序数据和/或rna测序数据是特别优选的,并且还优选hla分型被确定至至少四位深度。尽管不限制本发明主题,计算机算法使用德布鲁因图和参考序列。最典型地,参考序列包括至少一种hla分型的等位基因,该等位基因具有至少1%的等位基因频率,至少一种hla分型的至少10种不同的等位基因,和/或包括至少两种不同的hla分型的等位基因。因此,合适的hla分型包括hla-a型、hla-b型、hla-c型、hla-drb-1型和hla-dqb-1型中的一种或多于一种。

根据以下优选实施方式的详细描述以及附图,本发明主题的各种目的、特征、方面和优点将变得更加明显,在附图中,相同的附图标记表示相同的部件。

附图说明

图1是列出来自公共数据集(1000基因组计划;对象na19238、na19239和na19240)的患者数据的预测和公布的hla结果的表。

图2是列出实际患者数据的计算机预测的和实验室验证的hla结果的表。

图3是列出实际患者数据的通过进行长读长测序(longreadsequencing)而获得的计算机预测的hla结果的表格。

图4是列出实际患者数据的通过进行长读长测序而获得的计算机预测和hla结果的表格。

具体实施方式

本发明人设想,可以以概念上简单且快速的方法建立全面深入的生物信息学通用hla匹配引擎/数据库,该方法仅需要来自供体组织或来自等待移植的受体的组学数据。实际上,应该注意,可以从旨在用于除了hla匹配之外的目的(例如,用于确定发生疾病的可能性,或家族/祖先确定)的组学数据库或来源获得组学数据,并且这样的数据库和来源可以使用组学数据来生成用于组学数据提供者的其他值。从不同的角度来看,应该理解供体或受体的hla分型将在移植事件之前良好地确定。因此,即使在获取组学数据时无意捐献细胞或器官的个体现在也可以作为潜在的供体或受体来鉴定和联系。

因此,发明人大体上设想使用各种组学数据来生成适合作为移植供体和受体的通用数据中心的hla库。在这种情况下,必须认识到,当前出于各种原因(出于医学和其他原因)定制和获得组学数据。这种不断增加的组学信息的量现在可以用作hla信息的广谱来源。例如,定制或生成组学数据以用于确定祖先或种族,用于健康评估(例如,预测遗传相关疾病的风险),用于鉴定和/或监测特定群体,例如重罪犯、监狱犯人,用于流行病学背景下的群体/种族分析,以及用于个性化治疗(例如,癌症免疫疗法)的过程中。

因此,应该注意,组学数据的类型有很多变化,并且包括全基因组测序、外显子组测序、转录组测序和靶向测序。在这种情况下,应该认识到,目前的测序几乎是针对特定目标(例如,鉴定体细胞或种系突变、诊断疾病、确定种族成分等)驱动的专门目的。所设想的系统和方法将有利地允许重新调整组学数据的用途以鉴定hla分型,这样可以有益于提供组学数据的个体和/或有益于具有与所述个体hla匹配的另一个体。当然,注意到组学分析也可以限于先验地意图是细胞或组织供体和/或细胞或组织受体的个体的组。因此,示例性供体包括骨髓或干细胞供体、血小板供体、器官供体,而示例性受体包括急性移植受体和具有增加的器官功能不全或衰竭(例如,由于慢性进行性疾病)的可能性或预期需要干细胞移植(例如,在骨髓消融后)的个体。

存在本领域已知的组学数据的许多来源,并且认为所有已知的来源适于在此使用。例如,考虑的组学数据特别包括来自健康或患病组织的全基因组、外显子组测序和/或转录组测序数据。在本发明主题的其他方面,可以仅获得部分组学数据。在其他选择中,这样的部分数据包括限于染色体6,尤其是位置6p21.3的数据。因此,应该注意,组学数据的计算机分析可以是非常灵活的,并且实际上获取来自dna和rna组学分析(例如,rna测序数据、外显子组测序、全基因组测序)或dna和rna的组合的数据,以进行hla预测。此外,如以下更详细地提出的计算机分析是高度准确的且非常快速的,运行时间通常小于5分钟,以获得对所有26种hla分型的预测。更进一步,新的hla等位基因可以容易地加入到hla参考组中以进行预测,这也将在下面更详细地说明。最后,应该意识到,预期的系统和方法通常不需要基于群体的启发式方法来产生准确的结果。

关于确定潜在移植供体的hla分型,应注意,当测试供体时,可在供体有或没有意图将组织捐献给具有hla匹配的第三方的情况下进行确定。一些个体可能总是希望作为供体而可用,而其他人可能仅在初始确定之后数月或甚至数年才考虑这种可用性。例如,一些供体可以储存他们的孩子的脐带血组织,以用于对孩子进行再生医学中的潜在用途,孩子可以在某些时间确定他们的组织(或hla分型信息)可以用于帮助与具有相同或相容hla分型的受体进行匹配。在另一个实例中,个体将申请出于除hla确定以外的目的(例如,亲子关系分析、snp分析、疾病风险倾向、计划生育、个性化医学、个性化健康、个性化营养等)的确定个体的基因组、外显子组和/或转录组的测序服务。例如,测序服务(otogenetics、dantelabs、23andme、ancestry、myheritage、familytreedna等)。这样的服务可以提供作为额外的激励性hla确定,以便允许在鉴定出具有匹配或相容hla分型的一个或多于一个其他个体的情况下通知用户。因此,组学数据的特别合适的来源包括对基因组、外显子组和/或转录组进行测序的临床性服务(即,用于治疗疾病的目的)和非临床性的商业服务(即,用于除治疗疾病之外的目的)。

在其他实施方式中,血液或其他器官库可以对库存的组织执行组学分析,可能伴随着组织供体的鉴定。在这种情况下,血液或器官/组织库还可以表示可以进行联系以确定一个或多于一个hla匹配或hla相容性的hla储库或hla数据源。同样,在健康护理系统(政府或私人性质)或保险机构确定、存储和/或访问成员或用户的组学数据时,可以容易地对这种组学数据进行分析以确定hla分型。因此,应该理解,量不断增加的综合组学数据可以用作hla数据的第二来源,所述hla数据可以在不需要医学过程或不需要联系待确定hla分型的个体的情况下被确定。

类似地,关于确定潜在移植受体的hla分型,设想潜在受体不急需移植或甚至不预期需要移植。实际上,由于生活方式、疾病和/或治疗,任何人都可能产生对移植的需要。例如,各种生活方式选择(例如,药物使用、过量的西方饮食等)将伴随器官衰竭的风险增加,而诸如肝炎、慢性肾病、糖尿病等的疾病将具有增加的器官功能不全/衰竭的发展速率。另一方面,某些癌症治疗(尤其是常规化疗)可能导致器官损伤,例如骨髓功能障碍。在其他实例中,再生医学的进展有望实现来自干细胞和/或祖细胞的人工器官。由于这些细胞通常不会从受体中取出,hla匹配对于避免组织排斥是至关重要的。因此,虽然仅当发生移植需求时才需要对受体进行测试,但可以抢先进行hla测试。例如,hla测试可以作为可选的抢先服务来执行,或者在拜访医生或诊所(通常由于疾病的体征和症状而必需)时执行。最典型地,这种拜访可以与能够逐步升级为器官功能不全或器官衰竭的病症有关,或者与最终需要移植的病症有关。类似地,该病症可能需要损害或杀死器官或组织的治疗,例如化疗和/或骨髓消融。

因此,应该意识到,用于确定hla分型的设想方法可来源于许多组织(健康或患病的),尤其包括脐带血、全血、干细胞、口腔拭子等。实际上,认为所有供体组织都适用于本文。因此,合适的供体组织包括新鲜的液体组织(例如骨髓吸取物、分离的干细胞)、新鲜的固体组织(例如皮肤组织、角膜、肾、肺、心脏等)和甚至保存的或培养的液体组织(例如冷冻的组织切片、ffpe材料、nk细胞、t细胞,任选地是遗传工程化的和/或培养的或冷冻保存的)。此外,设想hla分析不需要在供体组织上进行,但也可在发现hla相容的受体时或在死亡时同意捐献一个或多于一个组织和/或器官的供体上进行。因此,匹配数据库可以扩展至还包括潜在供体。

例如,在治疗液体肿瘤的过程中需要骨髓干细胞移植的情况下,可以查询hla数据库中的骨髓和/或脐带血供体的完整详细的hla记录。如上所述,这种数据库可以作为任何需要骨髓或脐带血捐献的受体的生物信息学通用引擎。在另一个实例中(例如,在实体器官移植中),可以对所有等待移植的受体进行完全的先验序列分析,以确定受体的hla分型。然后,可以将这种信息存放在数据库中。可获得供体器官后,数据库就可以成为最精细的hla水平(包括次要等位基因和罕见等位基因)的通用匹配引擎。

如将容易意识到的,hla数据库可信息连接至测序设备、序列分析设备、诊所、(脐带)血库、(干)细胞库和/或移植诊所等,或可分布在多个计算机上。例如,hla数据库可以集中位于服务中心,该服务中心查询组学数据库以接收组学数据,或在信息连接到组学数据库的计算机上发起远程组学分析。类似地,hla分析也可以在测序设备、序列分析设备、诊所、(脐带)血库、(干)细胞库和/或移植诊所中进行,且结果可以报告至hla数据库。

在此上下文中,应该注意,任何针对计算机的语言应该被解读为包括计算设备的任何合适的组合,所述计算设备包括服务器、接口、系统、数据库、代理、端、引擎、控制器、或单独或共同操作的其他类型的计算设备。应该意识到,计算设备包括处理器,该处理器被配置成执行存储在有形非暂时性计算机可读存储介质(例如,硬盘驱动器、固态驱动器、ram、闪存、rom等)上的软件指令。软件指令优选地配置计算设备以提供如下关于所公开的装置所讨论的作用、责任或其他功能。在特别优选的实施方式中,各种服务器、系统、数据库或接口使用标准化协议或算法来交换数据,可能基于http、https、aes、公钥-私钥交换、web服务api、已知的金融交易协议或其他电子信息交换方法。数据交换优选地通过分组交换网络、因特网、lan、wan、vpn或其他类型的分组交换网络来进行。

例如,设想可以使用如下进一步描述的组学数据来测试组织和器官供体样品的hla分型,并且这种测试可以在样品或器官采集的同时进行。作为选择,尤其是在供体已经进行了遗传测试(例如,全基因组测序、外显子组测序等)的情况下,也可以从已经存储了这些数据的数据库中提取组学信息。因此,应该意识到,组织或器官采集点可以与分析点不同。例如,在组织是脐带血、骨髓或干细胞的情况下,可以直接在组织的一部分上执行组学测试。另一方面,当器官是实体器官时,可以对来自器官的样品或对供体的血液进行测试。另一方面,当受体等待组织或器官移植时,受体可如下所述进行hla分型的测试,并且hla信息可存储在数据库中。因此,注意到hla测试/分析和组织或器官收集的位点可以相同或不同。因此,hla匹配请求可以从各种位点提交,例如诊所、医生办公室、实验室、肿瘤协作组、商业测序实体,其可以与测序中心和/或hla分析服务物理地或信息地搭配使用。

在更进一步设想的方面中,hla分析可以作为辅助服务提供给测序或组学处理中心,以便提供额外的收益来源。在这种情况下,hla数据库可以是中央登记档,一方或多于一方可以根据特定证书(例如,组织成员、用户级别、访问特权等)的来访问该中央登记档。此外,可以设想,这种中央登记档可以使用受体和/或供体组织的整个基因组信息,或者可以仅使用有限的组学信息,通常是与hla位置(染色体6p21.3)相关的序列信息。

因此,hla匹配可以在任何一个或多于一个位点处鉴定,例如测序设备、肿瘤协作组、诊所、医生办公室、序列分析设备、(脐带)血库、(干)细胞库、移植诊所和/或hla数据库。通常认为hla匹配是匹配的或相关的hla分型,其中hla等位基因中至少一个、或至少两个、或至少三个、或至少四个、或至少五个、或至少六个具有至少两位、更通常至少四位、最通常至少六位的一致性。具有hla分型的hla等位基因的典型实例包括hla-a等位基因、hla-b等位基因、hla-c等位基因、hla-drb-1等位基因和hla-dqb-1等位基因中的一种或多于一种,每种等位基因具有特定类型。

虽然hla分型可以以多种方式确定,但是它们中的全部或几乎全部需要大量的时间和设备。此外,即使在使用等位基因特异性pcr反应进行靶向hla确定时,由于碱基组成和解链点的差异非常小,准确性通常低于期望。因此,许多常规的hla分型方法不能将hla分型解析至超过两位或四位。此外,常规hla分型方法实际上通常不能用于测试罕见hla分型,因此往往限制匹配能力。更进一步,常规hla测试仅针对移植受体为即将发生的移植进行。同样,hla测试通常对其中供体已经同意或已经考虑组织捐献(捐献给他们自己或其他人)的大多数供体进行。为了解决这些困难,发明人现在设想使用来自任何个体的可获得的组学数据来创建hla数据库,而不管个体状态如何(即,特定个体是供体还是受体,或个体是否已经考虑或同意细胞或器官捐赠)。这样,可以创建具有显著更大的供体和受体范围的通用hla数据库。

最有利地,现有的组学数据,例如全基因组、外显子组和/或转录组序列数据将在分析模块中处理,在所述分析模块中使用基于德布鲁因图的方法结合合成参考序列处理来自个体的组学序列,所述合成参考序列包括大量hla等位基因序列(例如hla-a等位基因序列、hla-b等位基因序列、hla-c等位基因序列、hla-drb-1等位基因序列和hla-dqb-1等位基因序列)的已知序列信息,以便获得各种密切相关序列的高度准确的比对。应该理解,这种分析对于根据dna和/或rna测序信息确定hla是特别有利的,因为每种hla分型具有许多通常非常相似的等位基因,因为常规比对方法在序列具有高度的相似性时通常不具有显著的区分能力。

事实上,hla等位基因鉴定是分子诊断学中最复杂的分析问题之一。首先,现在已知在全世界人口中在12种所表达的i类和ii类基因座处存在超过1300种等位基因。此外,这些等位基因的编码多肽彼此之间的区别在于一个或多于一个氨基酸置换,导致实质多态性。例如,hla-b基因座具有超过400个已知等位基因。其次,新的等位基因连续地添加到已知序列中,使得标准方案很快被淘汰。第三,经常要求临床实验室提供不同的临床情况下的各种分辨率水平的等位基因鉴定(例如,非亲缘骨髓移植需要高分辨率等位基因水平分型,而血清学或低分辨率分型对于肾移植是足够的)。个体具有来自母本和父本来源的等位基因,并且等位基因之间的差异通常仅非常微小(例如,四个氨基酸中的单个、两个、三个变化)的事实混淆了所有这些困难。下表1示例性地说明hla等位基因的广泛的多样性。

表1

因此,基于杂交的方法如序列特异性寡核苷酸探针杂交或序列特异性引物pcr的错误频率相对较高。类似地,尽管pcr产物的直接测序将消除与杂交相关的困难,但是序列读段的分析仍然是耗时的,尤其是在必须处理大量样品的情况下。在这种情况下,应该注意,本文提出的系统和方法改善总体速度和准确度以及计算机功能,因为与常规数据格式和处理方案(例如,多序列比对算法)相比,德布鲁因图形元素(和加权)的构建和排序极大地提高了准确度和速度。此外,必须理解,发明人解决的问题是生物信息学领域特有的,并且甚至在不计算组学信息的情况下是不存在的。最后,应该认识到,在没有计算机系统的帮助的情况下,由分析引擎执行的任务不能在人的一生中合理地执行。

在典型的实例中,映射至染色体6p21.3(或在其附近/处发现hla等位基因的任何其他位置)的相对大量的患者序列读段由组学数据库(例如,来自诊所、肿瘤协作组、商业基因组分析公司等)或测序设备或机器提供。最典型地,序列读段将通过nextgen测序(例如illuminasolexa、roche454测序仪、iontorrent测序仪等)产生,具有约100个至300个碱基的长度,并包含元数据,包括读段品质、比对信息、方向、位置等。合适的格式包括sam、bam、fasta、gar等,并且通常优选的是,患者序列读段提供至少5x,更典型地至少10x,甚至更典型地至少20x,并且最典型地至少30x的覆盖深度。除了患者序列读段之外,预期的方法还采用一个或多于一个参考序列,其包括多个已知且不同的hla等位基因的序列。

例如,典型的参考序列可以是合成的(没有相应的人或其他哺乳动物对应物)序列,其包括至少一种hla分型的序列片段,该hla分型具有该hla型的多个hla等位基因。例如,合适的参考序列包括hla-a的至少50个不同等位基因的已知基因组序列的集合。或者,或另外,参考序列也可包括hla-a的至少50个不同等位基因的已知rna序列的集合。当然,如以下更详细讨论的,参考序列不限于hla-a的50个等位基因,但就hla分型和等位基因的数目/组成而言,参考序列可以具有其他组成。hla分型通常以常规形式表达。例如,特定hla基因的hla分型可以表示为hla-a*24:02:01:02l,其中第一个字母表示hla基因,其中24:02表示类型和子类型,其中:01表示同义置换,并且其中02表示非编码区中的置换。最后一个字母表示蛋白质表达。用于合成参考的合适hla等位基因序列包括所有已知序列,并且可以从ipd-imgt/hla获得(url:ebi.ac.uk/ipd/imgt/hla/)。

最典型地,参考序列将是计算机可读格式,并且将从数据库或其他数据存储装置提供。例如,合适的参考序列格式包括fasta、fastq、embl、gcg或genbank格式,并且可以直接根据公共数据储库(例如,imgt、国际immunogenetics信息系统或等位基因频率网络数据库,eurostam,www.allelefrequencies.net)的数据获得或构建。作为选择,参考序列也可以基于一个或多于一个预定标准,例如等位基因频率、种族等位基因分布、常见或罕见等位基因类型等,根据个体已知hla等位基因来构建。

使用参考序列,现在可以将患者序列读段通过德布鲁因图以鉴定最佳拟合的等位基因,如wo2017/035392(及其美国国家阶段同族)中所述。在此上下文中,应注意,每个个体携带每种hla分型的两个等位基因,且这些等位基因可非常相似,或在一些情况下甚至相同。这种高度的相似性对于常规的比对方案造成了显著的问题。本发明人现在发现,使用以下方法可以分辨hla等位基因,分辨甚至非常密切相关的等位基因,在该方法中,德布鲁因图是通过将序列读段分解成相对小的k聚体(通常具有10个至20个碱基的长度)并通过进行加权投票过程来构建的,在该加权投票过程中,每个患者序列读段基于与等位基因序列匹配的序列读段的k聚体,为这样的每个等位基因投票(“定量的读段支持度”)。然后,等位基因的累积最高投票指示最可能的预测性hla等位基因。此外,通常优选的是,与等位基因匹配的每个片段也用于计算该等位基因的总覆盖度和覆盖深度,如以下更详细示出的。

为了鉴定相同hla型的第二等位基因,本发明人发现,甚至相对相似的第二等位基因也可以以更具启发式的方法解决,其中将排名最高的hla等位基因从进一步的考虑中去除,并且其中使用调整的(“成比例的”)投票结果将剩余的等位基因重新排序。更具体地,进行重新排序以便在重新排序投票结果中减少与排名最高的等位基因匹配的k聚体的票数。这种经调整的投票结果减少(但不是消除)了与排名最高的等位基因相似的基因型的加权投票结果,并因此减少了遗传相关等位基因的权重。同时,相似的等位基因不被忽略。通过考虑总覆盖度和覆盖深度可以进一步细化排序。例如,第一重新排序的等位基因可能得分较高,其总覆盖度和覆盖深度明显低于第二重新排列的等位基因。在这种情况下,第二重新排序的等位基因更可能是正确的等位基因。然后,排序最高的重新排序的等位基因是相同hla分型的第二等位基因。当然,如上所述,重新排序可以将整体覆盖和覆盖深度作为因子,并且甚至可以导致等位基因的不合格,其中整体覆盖和/或覆盖深度降至低于用户定义的阈值(例如,整体覆盖小于94%,和/或覆盖深度小于10x)。此外,使用匹配的k-聚体作为票还允许在特定的投票结果中鉴定独特的k-聚体,这可以作为进一步的指导,无论特定投票结果是否可能是正确的预测。

当然,应该意识到,分析和hla预测不需要限于特定hla分型,而是本文设想的所有hla分型和等位基因变体,包括hla-e、hla-f、hla-g、hla-h、hla-j、hla-k、hla-l、hla-v、hla-dqa1、hla-dma、hla-dmb、hla-doa、hla-dob、hla-dpa1、hla-dpb1、hla-dra、hla-drb345、hla-mica、hla-micb、hla-tap1、hla-tap2,以及甚至新发现的hla分型和它们的相应等位基因。此外,应该意识到,分析不需要限于单一hla分型,而是适用于本文的多种hla分型。因此,参考序列可以包括两种、三种、四种或多于四种hla分型,以及相应hla分型的等位基因集合。由于每种hla分型具有显著数量的等位基因,因此设想并非所有已知等位基因都需要包括在参考序列中。例如,参考序列可以包括具有等位基因频率高于特定阈值的等位基因,例如至少0.1%、或至少0.5%、或至少1%、或至少2%、或至少5%的等位基因频率。因此,从不同的角度来看,合适的参考序列可以包括至少一种hla分型的至少10种、或至少30种、或至少50种、或至少100种、或至少200种或至少500种、或甚至更多的不同等位基因。

类似地,应该意识到,患者序列读段的性质和类型可以显著变化。例如,设想的患者序列读段包括dna和rna序列,其中每一个均可以使用本领域已知的所有方法获得。而且,可以由数据存储系统(例如数据库)或由测序设备提供这样的序列读段。例如,dna序列读段可以来源于ngs测序仪,并且rna序列可以来自rtpcr测序装置。因此,患者序列读段的长度通常将长于20个碱基,更通常地长于50个碱基,并且最通常地长于100个碱基,然而,通常短于5000个碱基,或少于3000个碱基,或者短于1000个碱基。因此,设想的患者序列读段可具有100个至500个碱基或150个至1000个碱基的长度。

为了减少计算时间和对数据存储系统和/或存储器的需求,还优选的是,将患者序列读段预选至hla分型基因所在的基因组区域。例如,尤其设想了映射至染色体6p21.3的患者序列读段。类似地,还可以基于指示基因组中已知hla等位基因座的可能位置的一个或多于一个注解,来选择患者序列读段。替代地,注解还可以直接参考作为hla等位基因的序列的可能性。

不管患者序列读段的长度如何,通常优选的是,以具有相对较短长度的k聚体分解患者序列读段,并且特别优选的长度通常为10至30。值得注意的是,这种短k聚体长度允许在变体识别时,特别是由于对含有这种k聚体的片段进行加权投票的变体识别时具有更高的分辨率和精度。因此,k聚体的长度通常为10至30,或者15至35,或者20至40。从不同角度看,k聚体的长度优选小于60,甚至更优选小于50,并且最优选小于40,但长于5,更通常地长于8,最通常地长于10。例如,因此合适的k聚体的长度将是患者序列读段长度的5%至15%。

对于排序和复合匹配得分,应该注意的是,在最优选的方面,基于存在于患者序列读段中的所有k聚体生成匹配得分,并且每个投票的(即匹配的)k聚体具有相同的投票权。结果,患者序列读段将对参考序列中的每个等位基因具有特定的定量的读段支持度。此外,由于在大多数情况下,基因组中的每个位置具有>1的测序深度,并且由于每个患者序列读段将仅覆盖等位基因全长的一部分,因此每个等位基因可以从多个患者序列读段获得多张票。最通常地,添加等位基因的所有票以得到该等位基因的复合匹配得分。然后将每个等位基因的复合匹配得分用于排序和进一步分析。

然而,在本发明主题的替代方面中,应该注意的是,复合得分的评分和计算也可以被修改以实现一个或多于一个特定目的。例如,不需要根据所有匹配k聚体计算片段的匹配得分,但可以仅计数随机数或k聚体的选择。另一方面,可以向具有不太完美匹配(例如,14/15匹配)的k聚体赋予可能具有较低的投票权重的投票权。同样,并且特别是在元数据可用的情况下,可以降低其中读段品质降至特定阈值以下的k聚体和/或患者序列读段的投票权重。另一方面,在存在较低测序深度的情况下,特定片段可能代表了过多票数。在又一个设想的方面中,尤其是在读段深度相对较高(例如,至少15x,或至少20x,或至少30x)的情况下,基于票数可以消除或包括相同位置的患者序列读段。因此,复合匹配得分可以基于所有可用票,或者仅基于可用于等位基因的票的一部分。

尽管排序通常依赖于累积匹配得分,但应该意识到,还可以使用至少一个因子来校正排序。这些校正因子包括覆盖分数(fractioncovered)、测序深度,独特k聚体的数量以及可用片段的元数据。例如,对于其中等位基因的覆盖度低于预定阈值(例如小于96%,或小于94%,或小于92%等)和/或其中测序深度低于预定阈值(例如小于15x,或小于12x,或小于10x等)的等位基因,投票权重可能会降低。另一方面,例如,对于其中独特k聚体的百分比高于预定阈值(例如高于2%,或高于5%,或高于10%)的等位基因,投票权重也可能增加。

排名最高的等位基因通常是针对给定hla分型的第一预测的等位基因,而排名第二的等位基因可以是针对相同hla分型的第二等位基因。然而,应该注意的是,可以根据需要进一步改善或精确化评分过程,尤其是在最高排名后的许多名次具有相似复合匹配得分的情况下(例如,它们的得分的重要一部分来自高度共享的一组k聚体)。在一个优选实例中,可以实施得分精确化程序,其包括重新计算,其中,与最高排名的k聚体相匹配(完美地匹配,或具有至少90%、或至少95%、或至少97%、或至少99%的相似性)的k聚体权重可以通过校正因子降低。这种校正因子可以降低任何预定量的票数。最通常的校正因子会使票数降低10%、或20%至40%、或40%至60%、甚至多于60%。这具有减少与排名最高的等位基因相似的基因型的加权投票的效果,相对地使得不同的基因型变得更重要。因此,应该注意的是,基于来自所有测序数据的最高支持度鉴定第一等位基因,而第二等位基因基于更具启发式的方法而被鉴定,其使用原始加权投票、比例加权投票和覆盖度中的两者以确定第二等位基因在数据集中是否具有支持度(例如高比例加权投票和基因型覆盖度)或基因组的第一基因型是否是纯合的(例如高原始加权投票、非常低比例加权投票,没有具有适当覆盖度的其他等位基因)。从不同的角度来看,即使存在与排名最高的等位基因相似的等位基因,重新排序也有利于更精确地区分第二等位基因。此外,这种方法还允许容易地鉴定纯合的hla分型。此外,应该认识到,这种方法不需要使用散列表,并且能够在不将序列读段组装成hla分型的情况下允许鉴定合适的hla等位基因。更进一步地,设想的系统和方法还允许使用dna和/或rna数据。

因此,应该意识到,上述方法和系统特别适合于根据各种组学数据进行大规模hla确定,其中存在组学数据或组学数据可用于分析超过100个个体、或超过200个个体、或超过500个个体、或超过1000个个体、或超过5000个个体、或超过10000个个体、或甚至多于10000个个体。在分析结束时,每个个体的hla分型存储在hla数据库中,该hla数据库可以由多方访问,包括提供组学数据或使得组学数据可用的各方以及有兴趣找到hla相容的或相同的记录或个体的第三方。这种hla相容的或相同的记录或个体可以用于各种目的。首先,hla匹配将用于细胞或器官移植,而且还用于确定家族关系、确定种族、确定血液或组织样品的身份(例如,在法医使用中)等。

实施例

为了验证hla预测,从1000基因组计划(na19238、na19239和na19240)中获得三个独立的已知患者记录和样品,然后如上所述预测hla分型。值得注意且出乎意料的是,除了hla-c(对于na19238)、drb1(对于na19239)和hla-c(对于na19240)之外,使用如上所述的德布鲁因图法的hla确定和预测具有近乎完美的匹配,如图1所示。值得注意的是,这三处不符可以解释为由于公布记录中不正确的数据。本文提出的hla预测方法已经证明在3个独立数据集中的5个hla的不同组中具有100%的准确性。根据该数据,无法支持“公开”的c*18:01,而充分支持预测的c*18:02。此外,孟德尔遗传决定了在两个等位基因上的“公布的”drb1*13:01是不可能的(条件是na19238和na19239是na19240的亲本)。

在更进一步的实验中,发明人预测了20个实际患者样品的hla-a、hla-b、hla-c、hla-drb和hla-dbq单体型,并在缔约实验室中使用序列特异性寡核苷酸(sso)和序列特异性引物(ssp)方法验证了预测的hla分型。从图2可以看出,所有20个患者样品的预测准确率为100%。同样,分析了另外40名患者,并使用长程测序(longrangesequencing)(pacbiosmrt测序)验证了预测的hla分型。值得注意的是,如从图3和4中可以看出,仅有4个预测是不一致的,而有7个预测因不能确定序列而不确定。所有数据中剩余的97.4%与预测的hla分型一致。

如将容易理解的,预测的hla分型可以存储在数据库中并且可以代表供体hla分型,尤其是骨髓供体、干细胞供体、脐带血供体等,和/或移植受体,例如等待心脏、肝、肺、肾、皮肤或胰腺移植的患者。

如本文所用,并且除非上下文另外指出,否则术语“连接至”旨在包括直接连接(其中彼此连接的两个元件彼此接触)和间接连接(其中至少一个附加元件位于两个元件之间)。因此,术语“连接至”和“连接到”被同义使用。此外,本文公开的本发明的替代元件或实施方式的分组不应被解释为限制。每个组成员可以单独地或与组中的其他成员或本文中发现的其他元件一起被引用和保护。出于便利性和/或可专利性的原因,一个组中的一个或多于一个成员可以被包括在组中或从组中删除。当发生任何这样的包括或删除时,本文说明书被认为含有修改的组,从而实现所附权利要求中使用的所有马库什组的书面描述。

对于本领域技术人员显而易见的是,在不脱离本文的发明构思的情况下,除了已经描述的那些之外,更多修改是可能的。因此,除了所附权利要求的范围之外,本发明的主题不受限制。此外,在解释说明书和权利要求时,所有术语应以与上下文一致的最广泛的方式解释。特别地,术语“包括”和“包含”应该解释为以非排他的方式引用元素、组件或步骤,从而表示所引用的元素、组件或步骤可以存在,或者被利用或与未明确引用的其他元素、组件或步骤组合。当说明书和权利要求涉及选自a、b、c……和n中的至少一种时,文本应解释为仅需要来自该组的一个元素,而不是a加n,或b加n等。

再多了解一些
当前第1页 1 2 3
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1