摘要
前列腺癌具有相当大的地理种族差异。非洲血统是一个重要的风险因素,撒哈拉以南非洲地区的死亡率是全球平均水平的2.7倍1.致病的遗传和非遗传因素以及相关的突变过程尚不清楚2,3..在这里,通过对来自183个祖先(非洲与欧洲)和全球不同患者的治疗初治前列腺癌样本的全基因组测序,我们为撒哈拉以南非洲生成了一个大型癌症基因组学资源,确定了大约200万个体细胞变异。重要的非洲血统特异性发现包括肿瘤突变负担升高,基因组改变百分比增加,预测的破坏性突变数量增加,突变特征总数增加,以及驱动基因NCOA2,STK19,DDX11L1,PCAT1而且SETBP1.研究所有体细胞突变类型,我们描述了前列腺癌的分子分类学,按血统区分,并定义为全局突变亚型(GMS)。通过进一步纳入中国和亚洲的数据,我们确认GMS-B(拷贝数增加)和GMS-D(突变噪声)是非洲人群特有的,GMS-A(突变安静)是普遍的(所有种族),而非洲-欧洲限制亚型GMS-C(拷贝数损失)预示着较差的临床结果。除了包括非洲血统的个体的临床益处外,我们的GMS亚型揭示了不同的进化轨迹和突变过程,这表明共同的遗传和环境因素导致了种族之间的差异。类似于基因-环境相互作用(这里定义为不同血统的人在环境环境中的不同影响,反之亦然),我们预计GMS亚型可以作为癌症中内在和外在突变过程的代理,促进全球纳入具有里程碑意义的研究。
主要
前列腺癌是一种常见的异质性疾病,每年在全球范围内导致超过140万例新诊断和37.5万例男性相关死亡1.以高度可变的自然史和不同的临床行为为特征4在美国,基因组分析揭示了广泛的肿瘤内部和肿瘤间的异质性和复杂性,这并不奇怪5,6.致癌亚型的鉴定7以及可操作的药物靶标8前列腺癌的治疗是否离精准医疗又近了一步7,9,10,11,12.尽管高收入的欧洲祖先国家正在将癌症基因组学纳入癌症治疗的各个方面13在美国,世界其他地区都落后于美国,撒哈拉以南非洲地区的情况尤为明显14.前列腺癌也不例外,中国进行了一项大规模的研究11;2018年,我们提供了撒哈拉以南非洲的快照,仅在6个病例中报告了突变密度升高15.在撒哈拉以南非洲,前列腺癌的死亡率是高收入国家的两倍多,在大亚洲地区是四倍,从诊断和死亡人数来看,前列腺癌是男性相关癌症中排名最高的,包括南部非洲,年龄标准化死亡率分别为65.9 / 10万和22 / 10万1.通过南部非洲前列腺癌研究(SAPCS),我们报告了与非裔美国人相比,侵袭性疾病(4-5级)增加2.1倍,诊断时前列腺特异性抗原水平增加4.8倍16.
在这里,我们描述了,据我们所知,撒哈拉以南非洲最大的癌症和前列腺癌基因组数据,包括123名南非男性。另外53个澳大利亚人和7个巴西人同时通过同样的高深度全基因组测序(WGS)、突变调用和分析框架进行研究。重点关注未经治疗的病例(100%南非人,98%澳大利亚人和两名确诊的巴西人)和侵袭性肿瘤(72.2%南非人,86.8%澳大利亚人和85.7%巴西人的4-5级肿瘤;扩展数据图。1活检(100%南非人)或手术(100%澳大利亚人,62.5%巴西人)和患者匹配血液的覆盖率分别为88.69±14.78和44.34±8.11(中位数±s.d;补充表1),我们统一生成、调用和评估了大约200万个体细胞变异。通过祖先分类(遗传祖先高于自我确定的种族),我们在确定全球相关和非洲特有的基因组亚型的同时,在非洲个体中显示了更多的获得性遗传改变。将我们的体细胞变异数据集与欧洲民族定义的数据集相结合7,8,17,18和中国11前列腺癌基因组,我们揭示了具有不同临床结果的前列腺癌分类。来自ICGC/TCGA全基因组泛癌症分析(PCAWG)的2658个癌症基因组13扩展了癌症类型之间的全球突变亚型。利用每个亚型中已知的类似时钟的突变过程,我们推断了肿瘤进化的广泛时期的致癌驱动因素的突变时间,并计算了具有独特肿瘤进化模式的每个亚型的突变率。这些分析结合起来,使我们能够证明癌症基因组学中的全球包容如何在其基因组和临床行为方面揭示前列腺癌中未见的异质性。
体细胞突变总数
在183个前列腺肿瘤中,我们鉴定出1,067,885个单核苷酸变异(SNVs), 11,259个二核苷酸,307,263个小插入和缺失(indels, <50 bp), 419,920个拷贝数改变(CNAs)和22,919个结构变异(SVs),每一种突变类型在非洲个体的肿瘤中升高(图。1).中位数为37.54%±5.51的snv为c -t突变,队列间的转化和转位比为1.282。来自非洲个体的肿瘤具有更高的小突变率(snv和indels),与欧洲个体(1.061个突变/ Mb;P= 0.013, 2 -samplet以及;排除>的高突变肿瘤,每Mb 30个突变,P= 0.028)。非洲人的基因组改变(PGA)比例同样更高(7.26%对2.82%,P= 0.021)。祖先和总体细胞突变的相关性检验也支持这一结果(SNVs和PGA的假发现率(FDR)分别为0.009和0.032;扩展数据图。1 d).在非洲患者中观察到每个样本中SV断点的前六个最高估计值(928-2,284个断点)。在嗜色症(范围为52-55%)和染色体丛(范围为33-38%)方面,没有观察到祖先之间的总体差异,而来自非洲个体的肿瘤显示出染色体间染色体丛链数量较高的趋势(1-6对1-2)。此外,所有类型的突变的大小彼此之间有很强的相关性(图。1 b).因此,一个前列腺肿瘤在任何一种类型上的突变越多,它在所有类型上的突变就可能越多。
候选致癌驱动因素
众所周知,前列腺癌有一长串致癌驱动因素18在不同突变类型的光谱中8(扩展数据图。2).蛋白质编码突变,包括那些可能和可能具有破坏性的突变,在每个非洲个体中明显更大(polyphen2,在欧洲个体中有14个和11个突变;P= 0.022, 2 -samplet以及;排除超突变肿瘤,P= 0.039)。我们确定了由PCAWG联盟定义的482个编码驱动程序和167个非编码驱动程序20.(扩展数据图。3).在本研究中观察到两个编码驱动的中位数(第一四分位数到第三四分位数,2-4)(补充表2),其中一个(0-2)似乎是前列腺癌特有的7,8,17,18.183例患者编码驱动基因发生显著突变FOXA1,PTEN,SPOP而且TP53(10 ~ 25例,FDR = 1.34 × 10−21-9.44 × 10−5),而非编码驱动程序元素包括FOXA13’UTR,SNORD3B-2在第22号染色体上有一个调控微RNA启动子:38381983 (FDR = 9.12 × 10−13, fdr = 6.16 × 10−9和FDR = 0.070)。所有患者的复发性CNAs包括137个增益和129个损失(GISTIC2, FDR < 0.10;补充表3.)与一些跨界驱动基因(扩展数据图。3 b),例如DNAH2(fdr = 2.18 × 10−7),FAM66C(fdr = 1.30 × 10−9),FOXP1(fdr = 0.005),FXR2(fdr = 2.18 × 10−7),PTEN(fdr = 9.61 × 10−13),SHBG(fdr = 2.18 × 10−7),TP53(fdr = 2.18 × 10−7).
此外,体细胞sv的一部分(每个2个断点;共有1328个断点)与156个驱动基因重叠,在PCAWG的研究中报告了显著复发的断点改变20.,同时,使用具有可调背景协变量的广义线性模型,我们确定了另外100个受SV断点显著影响的基因(FDR = 1.3 × 10−43-0.097;扩展数据图。3 c及补充表4).对于超过20%的肿瘤,SV断点与内部的其他突变类型共存DNAH2,ERG,FAM66C,FXR2,PTEN,SHBG而且TP53.使用光学基因组图谱-一种非测序方法来检查染色体异常21-我们验证了HLA区域的复发断点(DQA1而且DQB1基因),识别6号染色体上3mb HLA复合体及其对应的HLA替代contigs之间的易位(扩展数据图。3 d).
观察了不同祖先之间的致癌驱动因素改变的差异(图。2 a, b).具体来说,来自非洲个体的肿瘤更有可能具有CNAs和突变SETBP1(频率= 0.33,比值比= 0.357,P= 0.012),DDX11L1(频率= 0.48,OR = 0.24,P= 0.0001),STK19(频率= 0.25,OR = 0.215,P= 0.004)和NCOA2(频率= 0.51,OR = 0.172,P= 3.14 × 10−6),以及SVsPCAT1(频率= 0.13,OR = 0.11,P= 0.012)。相比之下,SVs表示TMPRSS2(频率= 0.38,OR = 3.639,P= 0.0006)和ERG(频率= 0.34,OR = 3.159,P= 0.003)的差异在欧洲人中更为显著。虽然在这项研究中,一些dna损伤修复基因和其他先前与非洲血统相关的基因在非洲人和欧洲人之间没有显著改变,但有10个基因仅在非洲人身上发生了改变,其中大多数在编码序列中(频率= 0.009-0.035)。所有这些数据都支持将更多代表性不足的人群纳入临床登记,以促进精准肿瘤学研究22.
综合聚类分析
肿瘤分子分型是癌症基因组学中的一种标准方法,可将患者在同质人群中按不同程度的体细胞改变进行分层,这对临床应用具有意义9,10,11.在我们的研究中,确定了7个TCGA致癌驱动因素定义的亚型中的5个7,欧洲患者被分类的可能性比非洲患者高25%(补充表5和扩展数据图。4模拟).而TMPRSS2-ERG与非洲个体相比,欧洲个体肿瘤中的融合(主要是3 Mb缺失)显著升高(37.7%对13.3%;or = 3.919,P= 0.0004),虽然不显著,但非洲患者出现SPOP -编码突变(MATH和BTB结构域)。
为了进一步的分子分类,我们对所有突变类型(小突变,cna和sv)进行了iCluster分析,确定了4个亚型- a到D。2 c, d及补充表6).我们发现A亚型突变安静(1.01个突变/ Mb, 0.50个断点/ 10 Mb, 2% PGA);相比之下,亚型D表现出最大的突变密度(1.91突变/ Mb, 1.08断点/ 10 Mb, 31% PGA), CN增益和损失混合,而亚型B和C分别以大量CN增益或损失为标志(图。3).安静亚型似乎在前列腺癌研究中很常见7,9,23,而泛癌症共识驱动因素的数量20.从子类型A(中位数,2名司机)增加到B(中位数,3名司机),C(中位数,3名司机)和D(中位数,4名司机)。
使用分析中的所有突变类型,在四个亚型中有124个基因发生显著突变(FDR = 3.742 × 10−13-0.067;无花果。3),发生在31 ~ 183例患者(频率,0.17-1)。其中,有100个基因在PCAWG中被报道为致癌驱动因子20.,FOXA1而且SPOPTCGA亚型中的24个新突变基因主要受SV断点和cna的影响。突变基因中位数分别为:A亚型28个(3 ~ 105个),B亚型82个、C亚型98个、D亚型93个(42 ~ 109个、72 ~ 112个、49 ~ 107个);尽管不同的突变类型倾向于在基因和/或患者中同时发生(补充表)7),在安静亚型A中明显观察到小突变(编码和非编码),支持在肿瘤发生的早期获得24.我们在肿瘤亚型中优先突变的基因类似于前列腺癌驱动因素的长尾18,其中一些对许多肿瘤有高度影响,但大多数只影响少数肿瘤。
在我们的肿瘤亚型中,124个优先突变基因对应于8种TCGA/ICGC癌症途径(补充信息和扩展数据图。5).6个基因在来自非洲个体的肿瘤中显示出轻微的突变频率,影响表观遗传机制的基因明显偏向于欧洲个体(OR = 5.586,P= 2.9 × 10−7;扩展数据图。6 b).通路富集分析支持癌症通路的5个功能网络,其中2个参与信号转导和DNA检查点过程,8个通路中的5个与之相互作用(扩展数据图)。6及补充表8).
全球分子亚型
通过结合分子分析和患者人口统计学、遗传血统和地理,我们确定了一种新的前列腺癌分类法,我们将其定义为GMS(图2)。二维).而所有来自澳大利亚的欧洲患者(n= 53)及巴西(n= 3)局限于GMS-A和GMS-C,来自非洲个体的肿瘤分散在所有四种亚型中。我们发现GMS-B和GMS-D在非洲个体中占主导地位,GMS-B包括一名混合血统(92%非洲血统)的患者,GMS-D包括一名混合血统(63%非洲血统)和一名欧洲血统的患者。后者是我们研究中仅有的五位在非洲出生和长大的欧洲人之一。与其他欧洲血统的患者相比,该患者在所有类型中表现出最高的突变密度。通过整合分析,个体突变类型的替代共识聚类大多概括了亚型(补充表6).进一步纳入中国亚洲高危前列腺癌数据11(n= 93;扩展数据图。7一个),我们发现GMS-A在祖先和地理上具有普遍性,而GMS-D仍然是非洲特有的,新的GMS-E正在出现。GMS-B仍然是非洲特异性的,GMS-C仍然是欧洲-非洲特异性的。虽然所有患者在取样时都是首次接受治疗,但我们的欧洲队列招募了大量的随访数据(中位数±s.d。(122.5±44.4个月)。有趣的是,生化复发(图;3 b)和无死亡生存概率(图;3 c)解释了通用GMS优于欧洲-非洲GMS患者的临床结果(GMS- a vs GMS- c,对数秩检验,P= 0.008和P= 0.041)。
我们的GMS分类法可以在以下方面利用泛癌症研究。首先,PCAWG项目的患者抽样策略在每种癌症中都相当相同,因此抑制了全球限制性亚型的发现3.,13(扩展数据图。7 b).二、遗传祖传25患者的地理数据应该包括在癌症分子分析中。最后,在癌症研究中纳入种族差异需要适当地解决抽样队列中的遗传混合问题,因为过低的祖先界限似乎会在个体之间产生高度混合但相似的祖先,因此不鼓励种族多样化的样本。
新的和已知的突变特征
接近突变特征对单个癌症基因组的贡献有助于将突变特征与促进人类癌症发展的外源性或内源性诱变原接触联系起来3..在这里,我们使用非负矩阵分解生成了CN和SV签名列表以及它们对前列腺癌的贡献26(扩展数据图。8 a、b).结合已知的小突变签名目录,包括单碱基取代(SBSs)、双碱基取代(DBSs)和indels (IDs),我们不仅观察到突变特征数量的显著变化,而且还观察到非洲个体肿瘤中的过度表达(扩展数据图)。8 c).总体而言,96个SBS、78个DBS和83个ID特征在非洲个体中检测的总数显著高于欧洲个体(SBS为3399个,欧洲为2840个)。P= 0.014;DBSs, 42 vs 32,P= 0.006;id, 374对360,P= 0.016, 2 -samplet测试)。我们为每个小签名类型生成6个从头签名(中值余弦相似度分别为0.986、0.856和0.976),分别对应12、7和8个全局签名(中值余弦相似度分别为0.966、0.850和0.946;扩展数据图。9),其中26个可能是生物来源(SBS47,可能是测序人工制品)。DBSs约占sbs患病率的1%。非洲人的CN特征也更大(CN, 3,971对2,721,P= 1.92 × 10−8;SV, 94 vs 88,P= 0.100)。最近一项泛癌症研究定义了SV特征26每一个都是互斥的,包括简单的sv(根据大小,复制时间和在脆弱位点的发生而分割),模板插入(按大小分割),本地n-跳转和local -远端集群。对突变谱样本矩阵进行因子分解,确定了6个CN特征(CN1-6)和8个SV特征(SV1-8),以及它们对每个肿瘤的贡献。
我们发现全谱突变特征(SBSs, dss, id, CNs和sv)支持我们新描述的GMS。每个肿瘤中顶部特征的富集记录与分类亚型的类型显著相关,除DBSs (P= 5.1 × 10−7-0.017,单因素方差分析(ANOVA)或Fisher精确检验;扩展数据图。8 d).无论特征类型如何,40个突变特征中有13个与我们的GMS呈负相关或成正比相关(FDR = 4.97 × 10−13-0.095, Spearman相关;无花果。4).复制签名,包括CN1(串联复制)、CN4(全基因组复制)、SV2(插入)和SV5(大复制),偏向于突变噪声最大的亚型(扩展数据图)。8 a、b),其中CN4和SV5在非洲较为常见(相关系数=−0.24,FDR = 0.005-0.006)。数字4 b结果表明,与通用GMS-A相比,GMS-B、GMS-C和GMS-D的重复特征的基因组畸变比例至少高1.5倍。此外,非洲特异性亚型GMS-B由几个CN4和SV5基因组畸变组成,主要由CN扩增(>5个拷贝,主要是>100 kb)和串联复制(在DNA复制的早期到晚期,大小<5 Mb)组成。此外,在我们GMS中报道的32个前列腺癌高突变基因中,30个突变密度与不同的体细胞特征显著相关,其中CN2、CN6和SV6特征最多,主要由基因组缺失引起(FDR = 1.61 × 10)−7-0.082)。
GMS的演变
个体躯体事件的时间轴估计反映了不同患者的进化周期;例如,一名患者中来自克隆的一组相同的改变在另一名患者中表现为亚克隆事件(扩展数据图。10 a, b).然而,它们在一定程度上提供了每个样本中存在的驱动突变和cna的顺序24.所有驱动程序和cna的聚合单样本排序的重建揭示了每个GMS子类型所特有的不同进化模式(图2)。5 a、b和扩展数据图。10 c).我们为每个GMS亚型绘制了大约的癌症时间表,描绘了驱动基因的顺序、复发的cna和签名活动与全基因组复制的时间顺序交错,以及导致诊断的最近共同祖先的出现。基本上,驱动因素和cna的相互作用显著共存(OR = 2.6-97.8,P= 2.04 × 10−30-0.01),支持它们在重建时间线内的克隆和亚克隆有序状态。在每个GMS亚型中丰富的SBS和indel特征在克隆和亚克隆状态之间显示出突变谱的变化,表明突变率的差异。时钟样cpg - tpg突变和患者年龄调整图显示,普遍GMS的中位突变率低至0.968 /年,但在非洲个体特异性GMS- d中观察到的最高突变率为1.315 /年。GMS-B和GMS-C的比率分别为每年1.144和1.092。评估体细胞驱动事件的相对时间,TP53突变和伴随的17p缺失是特别有趣的,发生在GMS-C进展的早期和GMS-A的晚期。车手赛事时间相关的联赛模型(补充信息的分数概率分布一致TP53在早期阶段的改变,但大多数处于进化的中间状态(扩展数据图。10 d).这种体内肿瘤发展的基本知识表明,一些肿瘤在达到恶性潜能之前可能有更短的潜伏期,因此,已知其主要克隆的基因组异质性对于早期检测铺平道路至关重要。
讨论
我们的研究是撒哈拉以南非洲最大的全基因组前列腺癌基因组资源之一(摘要见补充表)12).承认缺乏南非患者临床分期的信息(在诊断时招募),我们描述了一种前列腺癌分子分类学,确定了具有遗传特征的GMS。与之前使用前列腺癌显著突变基因的分类学相比7,18,我们发现GMS子类型补充了已知的子类型,如SPOP而且FOXA1突变,与本研究中代表性不足的亚型相反,包括基因融合(扩展数据图)。4).我们还发现,GMS亚型与已知的癌症体细胞突变目录中报告的突变特征相关,其中每个肿瘤由不同程度的外源性和内源性诱变原暴露表示3..我们的研究使用了PCAWG联盟对38种癌症类型的进化进行分析24认识到每个GMS亚型代表了一个独特的进化史,其驱动因素和突变特征在癌症阶段不同,并将体细胞进化与患者的人口统计学联系起来。因此,有些是在泛癌研究中未观察到的罕见或地理上受限的特征3.,13.
我们考虑了两种极端的情况,通用的GMS-A与非洲特有的GMS-B和GMS-D,这将受到两种不同的突变过程的影响,以简化概念(图2)。5度).其中一个因素是遗传因素27,28,29有助于内源性突变过程,特别是那些具有显著的种系-体细胞相互作用,如TMPRSS2-ERG这种融合在非洲和亚洲血统的男性中并不常见11,30.,生殖系BRCA2突变和体细胞SPOP司机和他们各自的司机同时出现31,32.另一个因素是特定于特定环境或地理区域的可改变的环境属性,到目前为止,尚未在前列腺癌中观察到。它们作为致突变力量,导致健康组织在整个生命过程中对点突变的正向选择33,34和癌症35在正常衰老和癌症组织之间形成流体边界。根据奥斯曼36,上述基因-环境相互作用模型是在不同环境暴露的个体中某一基因型对疾病的影响不同,或者在不同基因型的个体中某一环境暴露对疾病的影响不同时观察到的。其他GMS子类型将是这两个过程的组合,需要更大的人口获取祖先的多样性,而不是种族和地理多样性。因此,该研究直接解释了前列腺癌的巨大空间基因组异质性及其在理解疾病病因方面的相关进化史。
我们的研究表明,在统一的分析中,更大的地理种族多样性和祖先定义人群的基因组数据集将继续识别前列腺癌和潜在的其他癌症中罕见的和地理上受限的亚型。我们证明,患者的祖先和地理属性可以促进癌症人群基因组学的研究,这是癌症个性化基因组学的替代方案,以更好地科学理解先天与后天。
方法
患者队列和WGS
我们的研究包括183名未经治疗的前列腺癌患者,他们是在知情同意和适当的伦理批准下招募的2)来自澳洲(n= 53),巴西(n= 7)和南非(n= 123)。虽然与病理分级相匹配,但如先前报道的那样,我们的非洲患者的前列腺特异性抗原水平显著升高16我们不能基于潜在转移的基础上排除(因为该队列中转移的数据不可用)。从新鲜组织和匹配的血液中提取的DNA在Illumina NovaSeq仪器上进行2 × 150 bp测序(加文医学研究所金霍恩临床基因组学中心)。
WGS处理和变量调用
使用bwa (v.0.7.15)对原始测序读取的每个通道与人类参考hg38 +替代contigs进行比对。37.来自同一库的lane级BAM文件被合并,重复的读取被标记。使用Genome Analysis Toolkit (GATK, v.4.1.2.0)进行基础质量再校准38.受污染及重复的样本(n= 8)被移除。我们实现了发现种系和体细胞变异的三条主要管道,后者包括小(SNV和indel)到大基因组变异(cna和sv)。使用的完整管道和工具可从悉尼信息中心(SIH),核心研究设施,悉尼大学(见“代码可用性”部分)。可扩展的生物信息学工作流程在补充信息中描述4.
使用fastSTRUCTURE (v.1.0)估计遗传血统39,对于一个非常大的变量数据集的边际似然的最佳近似的贝叶斯推断。本研究中比较非洲和欧洲血统的参考组是从以前的全基因组数据库中检索的19.
嗜色症和嗜色丛分析
使用ShatterSeek检测前列腺肿瘤的聚集性基因组重排(v.0.4)40和ChainFinder (v.1.0.1)41.我们的体细胞SV和体细胞CNA调用集是使用自定义脚本准备和共同分析的(参见“代码可用性”部分;补充信息6).
突变递归分析
我们使用了三种方法来检测基于三种突变类型的周期性突变基因或区域,包括小突变、sv和cna(补充信息)7).简而言之,在给定的基因组元素中,小突变被测试为明显比相邻的背景序列更突变。基因组元件检索自PCAWG联盟的syn525988620.,为一组编码序列和10组非编码区域。用γ -泊松回归对给定基因的SV断点进行统计富集测试,并通过基因组协变量进行校正12.使用GISTIC (v.2.0.23)检查局灶性和臂级复发性cna。42.PCAWG发表的编码区和非编码区已知驱动突变20.,43,44在我们的183个肿瘤中也有记录,那些前列腺癌基因也包括在内7,8,12,17,18.
前列腺癌亚型的综合分析
使用iClusterplus对183例患者的三种基因组数据类型进行了整合聚类11,45在R中,输入如下:(1)驱动基因和元件;(2)体细胞CN段;(3)显著周期性的SV断点。我们运行iClusterPlus。tune with clusters ranging from 1 to 9. We also performed unsupervised consensus clustering on each of the three data types individually. Association analysis of genomic alteration with different iCluster subtypes was performed in detail (Supplementary Information8).研究报告了不同iCluster亚型的驱动突变、复发断点和体细胞cna的差异。
iCluster与亚洲和泛癌症数据的比较
为了比较现有人群之间的分子亚型,中国前列腺癌基因组和表观基因组图谱(CPGEA)PRJCA001124)11与我们在上述三种数据类型上的综合聚类分析合并和处理,并进行了一些修改。此外,我们还利用了PCAWG联盟的数据13利用已发表的体细胞突变、SV和GISTIC基因结果,定义其他癌症类型中不同种族人群的分子亚型。由于非洲、亚洲和欧洲现有的原始祖先至少占70%,因此考虑了乳腺癌、肝癌、卵巢癌和胰腺癌等四种癌症类型。详情见补充资料8.4.
PCAWG13对前列腺癌患者进行检索,并与澳大利亚临床随访数据进行比较。只有欧洲血统超过90%的人(n= 139)对iCluster亚型的三种基因组数据类型以及个体共识聚类进行了分析。选取与上述较大队列规模相同的聚类结果进行关联分析。使用Kaplan-Meier图评估不同亚型参与者的生化复发和致命前列腺癌的差异,然后使用log-rank检验进行显著性检验。
突变特征分析
突变签名(SBSs, dss和indels),由PCAWG突变签名工作组定义3.,适用于使用SigProfiler观察到的特征活动的单个肿瘤46.采用非负矩阵分解检测183例患者的从头特征和全局特征及其贡献。新的突变基因组重排特征(CN和SV)也使用非负性矩阵分解进行,在183个肿瘤中检测了45个CN和44个SV特征。我们遵循PCAWG基因组重排的工作分类和注释方案26.使用两个SV调用程序来获得精确的断点坐标。早期、中期和晚期复制时机评分分别设置为>75、20 - 75和<20,影响SV检测47.详细的分析步骤,参数和相关的统计检验在补充资料中提供9.
癌症时间线的重建
使用MutationTimeR对CN增益和驱动突变(SNVs和indels)在癌症进化的四个阶段(早期克隆、未指定克隆、晚期克隆和亚克隆)进行计时24.CN增益包括2 + 0、2 + 1和2 + 2(二倍体基因组为1 + 1),这是为了更清晰的时代边界,而不仅仅是变异等位基因频率的信息。置信区间(t罗- - - - - -t向上),以200个自举来计算时间估计。根据参考文献计算各亚型的突变率。24CpG-to- tpg突变被计算在分析中,因为它们归因于CpG二核苷酸上5-甲基胞嘧啶与胸腺嘧啶的自发脱氨,因此起着分子钟的作用。
采用联盟模型相对排序来汇总所有研究样本,以计算驱动突变和复发性cna的总体排名。如前所述,排序的信息来自每个驱动突变的时间以及克隆和亚克隆CN段的时间。详细描述见补充信息10.
报告总结
有关研究设计的进一步资料,请参阅自然研究报告摘要链接到这篇文章。
数据可用性
dna测序数据已存入欧洲基因组-表型组档案(EGA)EGAS00001006425包括南部非洲前列腺癌研究(SAPCS)数据集(EGAD00001009067加文/圣文森特前列腺癌数据库EGAD00001009066).符合资料查阅政策准则的学术研究人员可向有关的资料查阅委员会申请查阅资料。CPGEA数据可通过http://www.cpgea.com.PCAWG数据可在ICGC数据门户网站(https://dcc.icgc.org/releases/PCAWG).
代码的可用性
本研究中用于读取对齐、质量控制和变量调用的核心计算管道可在GitHub (https://github.com/Sydney-Informatics-Hub/Bioinformatics).嗜色症和嗜色症的分析代码也可在GitHub (https://github.com/tgong1/Code_HRPCa).
参考文献
Sung, H.等。2020年全球癌症统计:GLOBOCAN估计了185个国家的36种癌症的发病率和死亡率。CA Cancer J. Clin。71, 209-249(2021)。
Alexandrov, L.等人。人类癌症突变过程的特征。自然500, 415-421(2013)。
Alexandrov, L. B.等。人类癌症的突变特征。自然578, 94-101(2020)。
Sandhu, S.等。前列腺癌。《柳叶刀》398, 1075-1090(2021)。
布特罗斯,p.c.等。局部多灶性前列腺癌的空间基因组异质性。Nat,麝猫。47, 736-745(2015)。
伯格,m.f.等人。原发性人类前列腺癌的基因组复杂性。自然470, 214-220(2011)。
癌症基因组图谱网络。原发性前列腺癌的分子分类学。细胞163, 1011-1025(2015)。
韦奇,d.c.等人。前列腺癌测序可以确定新的癌症基因、进展途径和药物靶点。Nat,麝猫。50, 682-692(2018)。
Lalonde, E.等人。肿瘤基因组和微环境异质性对前列腺癌5年生化复发的综合预测:一项回顾性队列研究柳叶刀杂志。15, 1521-1532(2014)。
卡蒙,A.等人。局部前列腺腺癌的综合分子分类揭示了一种预测非侵袭性疾病的肿瘤亚型。安。肿瘤防治杂志。29, 1814-1821(2018)。
李,J.等。亚洲人群前列腺癌的基因组和表观基因组图谱。自然580, 93-99(2020)。
Crumbaker等人。全基因组数据对转移性前列腺癌治疗决策的影响:一项回顾性分析。癌症12, e1178(2020)。
ICGC/TCGA全基因组泛癌分析联盟。全基因组泛癌分析。自然578, 82-93(2020)。
罗蒂米,S. O.,罗蒂米,O. A. & Salhia, B.非洲癌症遗传学和基因组学研究综述。前面。肿瘤防治杂志。10, 606400(2021)。
Jaratlerdsiri, W.等人。全基因组测序显示,在非洲男性treatment-naïve高风险前列腺癌患者中,肿瘤突变负担升高并启动驱动突变。癌症Res。78, 6736-6746(2018)。
Tindall, E. A.等。南非黑人前列腺癌的临床表现。前列腺癌74, 880-891(2014)。
罗宾逊等人。晚期前列腺癌的综合临床基因组学。细胞161, 1215-1228(2015)。
亚美尼亚,J.等。前列腺癌致癌驱动因素的长尾。Nat,麝猫。50, 645-651(2018)。
马利克,S.等。西蒙斯基因组多样性项目:来自142个不同种群的300个基因组。自然538, 201-206(2016)。
莱茵贝,E.等。2658个癌症全基因组非编码体细胞驱动因子分析。自然578, 102-111(2020)。
夏,L.等。非小细胞肺癌组织结构变异的多平台发现及调控功能分析。细胞的代表。36, 109660(2021)。
Mahal, B. A.等。前列腺癌基因组分析的种族差异。心血管病。j .地中海。383, 1083-1085(2020)。
泰勒,b.s.等。人类前列腺癌的综合基因组分析。癌症细胞18, 11-22(2010)。
gersting, M.等人。2658种癌症的进化史。自然578, 122-128(2020)。
李春华,海德尔,S. & Boutros, p.c.年龄对肿瘤分子表现的影响。Commun Nat。13, 208(2022)。
李,Y.等。人类癌症基因组的体细胞结构变异模式。自然578, 112-121(2020)。
康蒂,D. V.等。前列腺癌的跨祖先全基因组关联荟萃分析确定了新的易感位点,并告知遗传风险预测。Nat麝猫。.3., 5-75(2021)。
舒马赫,F. R.等。对超过14万名男性的关联分析确定了63个新的前列腺癌易感性位点。Nat,麝猫。50, 928-936(2018)。
al - olama, a.a.等人。一项对87,040人的荟萃分析确定了23个新的前列腺癌易感性位点。Nat,麝猫。46, 1103-1109(2014)。
黄,F. W.等。非裔美国人前列腺癌的外显子组测序揭示了功能丧失的ERF突变。癌症。7, 973-983(2017)。
罗曼内尔,A.等。前列腺癌早期复发性体细胞突变的遗传决定因素Commun Nat。8, 48(2017)。
泰勒,R. A.等。生殖系BRCA2突变以独特的进化轨迹驱动前列腺癌。Commun Nat。8, 13671(2017)。
突变选择和癌症的自然史。自然255, 197-200(1975)。
马丁科瑞娜,I. &坎贝尔,P. J.癌症和正常细胞的体细胞突变。科学349, 1483-1489(2015)。
Alexandrov, L. B.等。人类体细胞中的时钟样突变过程。Nat,麝猫。47, 1402-1407(2015)。
基因-环境相互作用:定义和研究设计。上一页。地中海。25, 764-770(1996)。
李,H. & Durbin, R.快速和准确的短读对齐与Burrows-Wheeler变换。生物信息学25, 1754-1760(2009)。
Van der Auwera, g.a.等。从FastQ数据到高置信变量调用:基因组分析工具包最佳实践管道。咕咕叫。Protoc。Bioinform。11, 11.10.11-11.10.33(2013)。
拉吉,A.,斯蒂芬斯,M. &普里查德,J. K. fastSTRUCTURE:大SNP数据集中种群结构的变分推理。遗传学197, 573-589(2014)。
Cortés-Ciriano, I.等。利用全基因组测序对2658例人类癌症中的嗜铬症进行了全面分析。Nat,麝猫。52, 331-341(2020)。
巴卡,S. C.等。前列腺癌基因组的间断进化。细胞153, 666-677(2013)。
Mermel, C. H.等。GISTIC2.0在人类癌症中促进了对焦点体细胞拷贝数改变靶点的敏感和自信的定位。基因组医学杂志。12, r41(2011)。
马丁科瑞娜等人。癌症和体细胞组织的普遍选择模式。细胞171, 1029-1041(2017)。
劳伦斯,m.s.等人。21种肿瘤类型癌症基因的发现和饱和分析。自然505, 495-501(2014)。
Mo, q,等等。综合癌症基因组数据中的模式发现和癌症基因鉴定。国家科学院学报美国110, 4245-4250(2013)。
nick - zainal, S.等人。560个乳腺癌全基因组序列的体细胞突变景观。自然534, 47-54(2016)。
Du, q等。复制时机和表观基因组重塑与癌症染色体重排的性质有关。Commun Nat。10, 416(2019)。
确认
所介绍的工作得到了澳大利亚国家卫生和医学研究委员会(NHMRC)的支持,项目赠款(APP1165762,给V.M.H.), NHMRC的想法赠款(APP2001098,给V.M.H.和M.S.R.B.;APP2010551,授予V.M.H.),悉尼大学桥接基金(G199756,授予V.M.H.),以及通过美国国防部(DoD)前列腺癌研究项目(PCRP)创意发展奖TARGET Africa (PC200390,授予w.j., s.m.p., d.c.w., s.b.a.m., M.S.R.B.和V.M.H.)。我们承认使用由澳大利亚政府支持的国家计算基础设施(NCI),并通过国家计算价值分配计划(V.M.H., E.K.F.C.和W.J.)、机密数据库计算价值分配计划(V.M.H.)、澳大利亚机密数据库有限公司和悉尼信息中心、核心研究设施访问。我们感谢加文医学研究所临床基因组学金霍恩中心(KCCG)基因组测序核心设施的工作人员。南部非洲前列腺癌研究(SAPCS)的招募、取样和处理是本研究目的所需的,由南非癌症协会(CANSA;M.S.R.B.和V.M.H.)。vm.h.由皮特基金会通过悉尼大学基金会资助;a.m.h.和W.J.由新南威尔士州癌症研究所(CINSW)项目资助(TPG172146给l.g.h., j.g.k., P.D.S.和V.M.H.), W.J.由澳大利亚政府前列腺癌研究联盟和Movember基金会合作PRECEPT(前列腺癌预后和治疗研究,由N. Corcoran领导)提供额外支持。我们感谢为这项研究做出贡献的患者和他们的家人;没有他们的贡献,这项研究是不可能的; the many clinical staff across the SAPCS (South Africa), the St Vincent’s Hospital Sydney (Australia) and Endocrine and Tumor Molecular Biology Laboratory (Brazil) for their contributions, who over many years have recruited patients and provided samples to these critical bioresources, with special recognition of P. Venter, R. L. Monare and S. van Zyl for their contributions as inaugural members of the SAPCS.
作者信息
作者及隶属关系
贡献
V.M.H.设计了实验并监督了这个项目。W.J.领导了生物信息学和统计分析,W.J.和V.M.H.都进行了数据解释。s.m.p.、r.j.l.、a.m.h.和D.G.P.制备了样本并管理表型数据。M.L.和J.G.K.进行病理分级,r.c.、l.g.h.、i.s.b.、s.b.a.m.、P.D.S.和M.S.R.B.管理患者招募和同意,以及临床解释。v.m.h.、S.B.A.M.和M.S.R.B.共同指导了南部非洲前列腺癌研究(SAPCS)。w.j., j.j., t.g., c.w., T.C.和R.S.开发了管道,并执行了高效和可扩展的高性能计算变量调用,E.K.F.C.和V.M.H.提供了关键建议;w.j.、J.J.和T.G.进行了复杂变异注释,R.J.L.生成了光学基因组图谱数据。W.J.进行突变特征和肿瘤进化分析,并由D.C.W.提供关键建议;W.J.和V.M.H.写了手稿。W.J.生成了这些数据,所有的作者都参与了最终的编辑和批准工作。
相应的作者
道德声明
相互竞争的利益
作者声明没有利益竞争。
同行评审
同行评审信息
自然感谢Robert Bristow, Adam Sowalsky和其他匿名审稿人对这项工作的同行评审所做的贡献。同行评审报告是可用的。
额外的信息
出版商的注意施普林格自然对出版的地图和机构从属关系中的管辖权主张保持中立。
扩展的数据图形和表格
扩展数据图1临床队列和统计指标。
一个、临床和病理患者。鉴定。使用列联表和Fisher 's Exact检验的非洲血统和混合/欧洲血统之间的两两比较以双面粗体突出显示P-value <0.05(*), <0.01(**),或<0.001(***)。汇总统计数据,包括中位数、第一和第三四分位数(第一季度至第三季度)。b用logistic先验模型分析双等位种系变异的结构。用于解释图中结构的模型分量为K = 5。所有非洲人的贡献都被总结和分配为非洲血统。c, 183例患者所有驱动类型的饱和曲线。使用GISTIC v2 (补充的方法).CDS,编码序列;SV,结构变异。d,该队列中测量的不同变量之间的Spearman相关性。点的大小代表相关性的大小,显著P-values(双面)<0.01。
图2不同祖先的183例前列腺癌患者的体细胞驱动突变。
右边的协变量表示不同突变类型的改变样本总数。一个,在183个前列腺肿瘤标本中,寻找原发前列腺肿瘤中改变的前300个驱动基因。只有在PCAWG和本研究中发现的、存在于6名以上患者或在非洲人和欧洲人之间存在显著差异的驱动基因被选择用于作图。顶部的条形图显示了前列腺癌驱动因素和/或PCAWG的数量分布。热图显示了在这项研究中为每个患者找到的司机(行)(列)。热图按突变类型着色。左边的双barplot描述了直接在非洲人和欧洲人之间的突变复发的基因水平比较。底部的协变量表示患者的临床特征。183例患者的转化/转位突变百分比显示1-Y染色体上有1,364,210个小体细胞突变。b底部热图显示了本研究中观察到的前22个先前报道的前列腺癌编码驱动基因7,8,17,18.左边的条形图显示了我们研究的递归分析的统计支持。
扩展数据图3前列腺癌驱动因素的发现。
一个在我们的队列中研究的PCAWG驱动基因和元件的数量和类型。b,使用GISTIC v2以99%置信水平鉴定的183个前列腺肿瘤的复发性拷贝数改变(补充的方法).图中显示了FDR支持的复发扩增(红色)或缺失(蓝色)显著区域的GISTIC峰值< 0.01。c,全基因组扫描在我们的研究中显著复发的断点。分位数-分位数图显示了两面性P- 183例前列腺癌患者的突变密度值。使用错误发现率(FDR;(Benjamini-Hochberg方法)见补充表4.广义线性模型(GLM)的体细胞突变密度沿基因组显著背景突变过程调整在模型中也显示。dBionano Genomics的HLA复合体光学基因组图谱。本队列研究的一例来自一名欧洲患者(ID 12543)和一名非洲患者(ID UP2360)的HLA易位病例具有一对光学图的特征,每个患者携带一个融合结,侧边片段对齐到两个参考断点的一侧。使用本研究中确定的反复出现的HLA断点,通过使用Bionano Access v1.5.2对未过滤的共识图进行人工检查,发现非洲标本的基因组图具有与6号染色体匹配的低端融合功能。注意,在欧洲肿瘤中融合的HLA交替contig与短读测序(chr6_GL000252v2_alt)显示的不同。参考基因组图是一个在网上用DLE-1酶消化人类参考hg38。基因组图谱大小表示在横轴上,以兆酶(Mb)为单位。样本与参考基因组图谱之间的匹配荧光标记由灰线连接。
图4 TCGA分子分类学。
一个TCGA在非洲和欧洲患者中鉴定出7个重要的致癌驱动因素。b,编码突变观察SPOP而且FOXA1基因。的BTB结构域突变很少SPOP基因显示(R221C在非洲患者,KAL0072)。跳频,forkhead。c,ETV1阳性患者因拷贝数(CN)丢失和/或结构变异(DEL,缺失;ICX,染色体间易位;INV,不平衡反转或平衡反转)。7号染色体的CN改变显示ETV1计程仪损失2CN比小于- 0.2。d,ERG由CN损失和/或结构变异引起的熔合。
图5前列腺癌基因和通路。
使用TCGA和ICGC癌症数据库对124个肿瘤亚型优先突变基因进行了搜索。每个途径的最受影响的基因都以棒棒糖图的形式出现,以显示它们的简单编码突变的热点(如果它们存在的话)。在非洲人(n = 113)和欧洲人(n = 61)之间分别测量一条通路中每个改变基因的突变频率,并在右侧以百分比顺序显示(AFR, EUR)。
图6前列腺癌的主要生物学途径和网络。
一个每个癌症通路的驱动基因之间的功能相互作用网络显示。节点表示基因本体生物过程,反应组路径和边表示功能相互作用。b,非洲和欧洲之间的路径改变频率。如果该途径中至少有一个基因发生了基因组改变,则该样本被认为在给定途径中发生了改变(见扩展数据图)。5).P-values表示显著性水平(双面费雪精确检验)。
图7前列腺癌和泛癌的分子亚型。
一个使用WGS归一化数据中存在的全部体细胞突变,对三个主要祖先组的原发性前列腺肿瘤进行无监督分级聚类。混合的个体也被测试了他们所属的前列腺癌亚型。b泛癌症研究中总体细胞突变的分子亚型,即胰腺癌、卵巢癌、乳腺癌和肝癌。从PCAWG检索了每个癌症获得的小体细胞突变、结构变异和拷贝数改变的原始数据13.对于每一种亚型,患者都是根据他们的祖先进行排序的。祖先分组使用祖先贡献大于70%的分界点;否则,视为混合。
扩展数据图8前列腺癌中已知的和新的突变特征。
一个根据观察到的突变过程,前列腺癌中45个CN特征的拷贝数特征进行了排序。NMF算法提取的六个最具特色的特征及其重要成分在183个基因组的样本量上运行。柱状图表示分配给每个签名的每个事件特征的估计比例(行和为1)。b前列腺癌的结构变异特征根据从小缺失到相互重排的突变过程进行排序。使用NMF算法从44个特征中提取的8个最具特色的特征及其重要成分,在183个基因组的样本量上运行。柱状图表示分配给每个签名的每个事件特征的估计比例(行和为1)。c183个肿瘤的SBS、DBS、ID、CN和SV特征的频率。底部面板上的颜色显示了以下祖先群体:我)非洲,红色;2)混合,绿色;而且3)欧洲,蓝色。d,每个患者富集的每个突变类型的多个特征暴露的堆叠柱状图,并按祖先组排序。在许多情况下,某些突变特征在肿瘤中比其他突变更频繁地发生。在补充表中显示了每个患者的小到大尺寸突变签名的顶部富集9(见浓缩)。拷贝数和结构变异特征(分别为CN1-6和SV1-8)在本研究中首次被确定为前列腺癌,并且它们在每位患者的特征混合物/暴露量的最高富集似乎与我们的GMS(单向方差分析或Fisher精确检验,双侧)显著相关P-values = 5.1e-07-0.017),考虑到在癌症体细胞突变目录(COSMIC)中发现的从头突变或全局突变特征。这支持了GMS在解释癌症中内在和外在突变过程中的作用。
扩展数据图10前列腺肿瘤发展阶段。
一个非洲人和欧洲人之间前列腺癌的克隆结构及其频率。肿瘤分为三组:单克隆、线性和分支多克隆。小体细胞突变(SSM)和cna的数量占基因组改变(PGA)的百分比为中位数,括号中为范围。每个克隆和/或亚克隆中的癌细胞片段(CCF)显示在圆形节点中。表现出与多瘤或多个独立原发肿瘤特征一致的肿瘤被排除在外以保持保守。b,克隆(主干)和亚克隆(分支)突变之间的无偏倚的CNAs分级聚类。主干突变包括那些发生在根节点(正常)和它唯一的子节点之间的突变,而所有其他突变都被归类为发生在分支中。红色表示增益;蓝色表示损失;行表示病人。假设中继和分支中的未知区域具有中立副本号。ConsensusClusterPlus显示我们患者中的7个CNA集群是最优的。该图显示,来自一个患者的主干改变与来自另一个患者的主干改变在突变上相似,而不是来自队列中不同患者的其他主干改变。c本研究确定了GMS-B和-D的癌症时间线。具体说明如图所示。5.基于Fisher 's Exact检验的显著体细胞相互作用由优势比(OR)估计和双侧显示P-value在左上方面板上。GMS-B和-D体细胞事件之间存在互作意义P-值分别为3.16e-22-0.041和9.11e-25。突变率图以虚线和误差带分别表示拟合数据的中位数±2×标准误差。d, 66个样本队列的相对排序模型(PhylogicNDT LeagueModel)结果。如果样本中感兴趣的体细胞事件普遍存在于样本量的5%以上,并且每个事件(16个事件)都有信息性克隆状态,则可以对样本进行分析。概率分布显示了队列中特定事件时间的不确定性。e非洲人与欧洲人杂合度(LOH)拷贝数增减的分子时间分布。饼图描述了给定拷贝数改变的推断突变时间的分布。橙色表示早期克隆增益/LOH,渐变为绿色表示晚期增益/LOH。每个图表的大小与该事件在不同患者中的复发成正比。根据MutationTimeR结果,大多数增益和LOH被认为是早期克隆。全基因组复制在非洲(63%)比在欧洲(57%)更为频繁。
权利和权限
开放获取本文遵循知识共享署名4.0国际许可协议(Creative Commons Attribution 4.0 International License),允许以任何媒介或格式使用、分享、改编、分发和复制,只要您对原作者和来源给予适当的署名,提供知识共享许可协议的链接,并注明是否有更改。本文中的图像或其他第三方材料包含在文章的创作共用许可中,除非在材料的信用额度中另有说明。如果内容未包含在文章的创作共用许可协议中,并且您的预期使用不被法定法规所允许或超出了允许的使用范围,您将需要直接获得版权所有者的许可。要查看此许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/.
关于本文
引用本文
贾拉特尔斯瑞,W.,蒋,J.,龚涛。et al。前列腺癌的非洲特异性分子分类学。自然609, 552-559(2022)。https://doi.org/10.1038/s41586-022-05154-6
收到了:
接受:
发表:
发行日期:
DOI:https://doi.org/10.1038/s41586-022-05154-6