主要

前列腺癌是一种常见的异质性疾病,每年在全球范围内导致超过140万例新诊断和37.5万例男性相关死亡1.以高度可变的自然史和不同的临床行为为特征4在美国,基因组分析揭示了广泛的肿瘤内部和肿瘤间的异质性和复杂性,这并不奇怪56.致癌亚型的鉴定7以及可操作的药物靶标8前列腺癌的治疗是否离精准医疗又近了一步79101112.尽管高收入的欧洲祖先国家正在将癌症基因组学纳入癌症治疗的各个方面13在美国,世界其他地区都落后于美国,撒哈拉以南非洲地区的情况尤为明显14.前列腺癌也不例外,中国进行了一项大规模的研究11;2018年,我们提供了撒哈拉以南非洲的快照,仅在6个病例中报告了突变密度升高15.在撒哈拉以南非洲,前列腺癌的死亡率是高收入国家的两倍多,在大亚洲地区是四倍,从诊断和死亡人数来看,前列腺癌是男性相关癌症中排名最高的,包括南部非洲,年龄标准化死亡率分别为65.9 / 10万和22 / 10万1.通过南部非洲前列腺癌研究(SAPCS),我们报告了与非裔美国人相比,侵袭性疾病(4-5级)增加2.1倍,诊断时前列腺特异性抗原水平增加4.8倍16

在这里,我们描述了,据我们所知,撒哈拉以南非洲最大的癌症和前列腺癌基因组数据,包括123名南非男性。另外53个澳大利亚人和7个巴西人同时通过同样的高深度全基因组测序(WGS)、突变调用和分析框架进行研究。重点关注未经治疗的病例(100%南非人,98%澳大利亚人和两名确诊的巴西人)和侵袭性肿瘤(72.2%南非人,86.8%澳大利亚人和85.7%巴西人的4-5级肿瘤;扩展数据图。1活检(100%南非人)或手术(100%澳大利亚人,62.5%巴西人)和患者匹配血液的覆盖率分别为88.69±14.78和44.34±8.11(中位数±s.d;补充表1),我们统一生成、调用和评估了大约200万个体细胞变异。通过祖先分类(遗传祖先高于自我确定的种族),我们在确定全球相关和非洲特有的基因组亚型的同时,在非洲个体中显示了更多的获得性遗传改变。将我们的体细胞变异数据集与欧洲民族定义的数据集相结合781718和中国11前列腺癌基因组,我们揭示了具有不同临床结果的前列腺癌分类。来自ICGC/TCGA全基因组泛癌症分析(PCAWG)的2658个癌症基因组13扩展了癌症类型之间的全球突变亚型。利用每个亚型中已知的类似时钟的突变过程,我们推断了肿瘤进化的广泛时期的致癌驱动因素的突变时间,并计算了具有独特肿瘤进化模式的每个亚型的突变率。这些分析结合起来,使我们能够证明癌症基因组学中的全球包容如何在其基因组和临床行为方面揭示前列腺癌中未见的异质性。

遗传祖先

使用从地理位置匹配的非洲(n= 64)及欧洲(n= 4)深度覆盖已发表和未发表的参考基因组19.使用7,472,833个标记对非洲人进行了祖先分配(n= 113人,均为南非人),贡献大于98%;欧洲(n= 61;53名澳大利亚人,5名南非人和3名巴西人),允许亚洲人贡献高达10%(单一异常值为26%);和非洲-欧洲混血(n= 9;5名南非人和4名巴西人),非洲或欧洲人的贡献只有4%(扩展数据图)。1 b).

体细胞突变总数

在183个前列腺肿瘤中,我们鉴定出1,067,885个单核苷酸变异(SNVs), 11,259个二核苷酸,307,263个小插入和缺失(indels, <50 bp), 419,920个拷贝数改变(CNAs)和22,919个结构变异(SVs),每一种突变类型在非洲个体的肿瘤中升高(图。1).中位数为37.54%±5.51的snv为c -t突变,队列间的转化和转位比为1.282。来自非洲个体的肿瘤具有更高的小突变率(snv和indels),与欧洲个体(1.061个突变/ Mb;P= 0.013, 2 -samplet以及;排除>的高突变肿瘤,每Mb 30个突变,P= 0.028)。非洲人的基因组改变(PGA)比例同样更高(7.26%对2.82%,P= 0.021)。祖先和总体细胞突变的相关性检验也支持这一结果(SNVs和PGA的假发现率(FDR)分别为0.009和0.032;扩展数据图。1 d).在非洲患者中观察到每个样本中SV断点的前六个最高估计值(928-2,284个断点)。在嗜色症(范围为52-55%)和染色体丛(范围为33-38%)方面,没有观察到祖先之间的总体差异,而来自非洲个体的肿瘤显示出染色体间染色体丛链数量较高的趋势(1-6对1-2)。此外,所有类型的突变的大小彼此之间有很强的相关性(图。1 b).因此,一个前列腺肿瘤在任何一种类型上的突变越多,它在所有类型上的突变就可能越多。

图1:不同血统个体前列腺肿瘤的突变密度。
图1

一个,在183对肿瘤-血液WGS中,7种突变类型的体细胞畸变(事件数或碱基对数)的分布n= 61欧洲,n= 113名非洲和n= 9个混合个体。箱形图显示中位数(中心线)、第25和第75百分位数(盒限)和±1.5×四分位数范围(须)。b,在该队列中观察到不同类型的突变负担。样本按百分位排序,然后根据在每个祖先组中观察到的突变类型的百分位总和排序(左)。右,突变类型之间显示了Spearman相关性,圆点大小表示相关性的大小,背景颜色表示FDR值的统计显著性。

候选致癌驱动因素

众所周知,前列腺癌有一长串致癌驱动因素18在不同突变类型的光谱中8(扩展数据图。2).蛋白质编码突变,包括那些可能和可能具有破坏性的突变,在每个非洲个体中明显更大(polyphen2,在欧洲个体中有14个和11个突变;P= 0.022, 2 -samplet以及;排除超突变肿瘤,P= 0.039)。我们确定了由PCAWG联盟定义的482个编码驱动程序和167个非编码驱动程序20.(扩展数据图。3).在本研究中观察到两个编码驱动的中位数(第一四分位数到第三四分位数,2-4)(补充表2),其中一个(0-2)似乎是前列腺癌特有的781718.183例患者编码驱动基因发生显著突变FOXA1PTENSPOP而且TP53(10 ~ 25例,FDR = 1.34 × 10−21-9.44 × 10−5),而非编码驱动程序元素包括FOXA13’UTR,SNORD3B-2在第22号染色体上有一个调控微RNA启动子:38381983 (FDR = 9.12 × 10−13, fdr = 6.16 × 10−9和FDR = 0.070)。所有患者的复发性CNAs包括137个增益和129个损失(GISTIC2, FDR < 0.10;补充表3.)与一些跨界驱动基因(扩展数据图。3 b),例如DNAH2(fdr = 2.18 × 10−7),FAM66C(fdr = 1.30 × 10−9),FOXP1(fdr = 0.005),FXR2(fdr = 2.18 × 10−7),PTEN(fdr = 9.61 × 10−13),SHBG(fdr = 2.18 × 10−7),TP53(fdr = 2.18 × 10−7).

此外,体细胞sv的一部分(每个2个断点;共有1328个断点)与156个驱动基因重叠,在PCAWG的研究中报告了显著复发的断点改变20.,同时,使用具有可调背景协变量的广义线性模型,我们确定了另外100个受SV断点显著影响的基因(FDR = 1.3 × 10−43-0.097;扩展数据图。3 c及补充表4).对于超过20%的肿瘤,SV断点与内部的其他突变类型共存DNAH2ERGFAM66CFXR2PTENSHBG而且TP53.使用光学基因组图谱-一种非测序方法来检查染色体异常21-我们验证了HLA区域的复发断点(DQA1而且DQB1基因),识别6号染色体上3mb HLA复合体及其对应的HLA替代contigs之间的易位(扩展数据图。3 d).

观察了不同祖先之间的致癌驱动因素改变的差异(图。2 a, b).具体来说,来自非洲个体的肿瘤更有可能具有CNAs和突变SETBP1(频率= 0.33,比值比= 0.357,P= 0.012),DDX11L1(频率= 0.48,OR = 0.24,P= 0.0001),STK19(频率= 0.25,OR = 0.215,P= 0.004)和NCOA2(频率= 0.51,OR = 0.172,P= 3.14 × 10−6),以及SVsPCAT1(频率= 0.13,OR = 0.11,P= 0.012)。相比之下,SVs表示TMPRSS2(频率= 0.38,OR = 3.639,P= 0.0006)和ERG(频率= 0.34,OR = 3.159,P= 0.003)的差异在欧洲人中更为显著。虽然在这项研究中,一些dna损伤修复基因和其他先前与非洲血统相关的基因在非洲人和欧洲人之间没有显著改变,但有10个基因仅在非洲人身上发生了改变,其中大多数在编码序列中(频率= 0.009-0.035)。所有这些数据都支持将更多代表性不足的人群纳入临床登记,以促进精准肿瘤学研究22

图2:不同血统的前列腺癌驱动突变的分类和差异。
图2

一个,选择的35个驱动基因被分类为(1)本研究中改变最多的驱动基因(>10例患者),与血统无关(绿色);(2)已知与非洲血统有关的dna损伤修复(DDR)基因(橙色);(3)研究前列腺癌的其他祖先相关基因(assoc。、紫色)。或,95%置信区间和双面P值(<0.05)采用Fisher精确检验计数数据,包括10个非洲特异性(OR = 0)和3个欧洲特异性(OR =无穷大)基因。观察了以下因素的显著性TMPRSS2P= 0.0006),ERGP= 0.003),SETBP1P= 0.012),DDX11L1P= 0.0001),STK19P= 0.004),NCOA2P= 3.14 × 10−6),PCAT1P= 0.012),PAPSS2P= 0.042)和MTCH2P= 0.014)。b,非洲人与欧洲人不同突变类型(CDS、非编码、SV和CNA)改变驱动基因的突变频率。c一项综合聚类分析揭示了前列腺癌的四种不同分子亚型。分子亚型由小的体细胞突变(编码区和非编码元件)、体细胞cna和体细胞sv表示。iCluster成员与患者祖先之间的比例和关联说明在d.对每个数据类型进行了额外的无监督共识聚类,并通过综合分析总结了大部分子类型。d,本研究中四种分子亚型的体细胞突变总数。虚线表示四种亚型突变密度的中值。对于每一种亚型,患者都是根据他们的祖先进行排序的。

综合聚类分析

肿瘤分子分型是癌症基因组学中的一种标准方法,可将患者在同质人群中按不同程度的体细胞改变进行分层,这对临床应用具有意义91011.在我们的研究中,确定了7个TCGA致癌驱动因素定义的亚型中的5个7,欧洲患者被分类的可能性比非洲患者高25%(补充表5和扩展数据图。4模拟).而TMPRSS2-ERG与非洲个体相比,欧洲个体肿瘤中的融合(主要是3 Mb缺失)显著升高(37.7%对13.3%;or = 3.919,P= 0.0004),虽然不显著,但非洲患者出现SPOP -编码突变(MATH和BTB结构域)。

为了进一步的分子分类,我们对所有突变类型(小突变,cna和sv)进行了iCluster分析,确定了4个亚型- a到D。2 c, d及补充表6).我们发现A亚型突变安静(1.01个突变/ Mb, 0.50个断点/ 10 Mb, 2% PGA);相比之下,亚型D表现出最大的突变密度(1.91突变/ Mb, 1.08断点/ 10 Mb, 31% PGA), CN增益和损失混合,而亚型B和C分别以大量CN增益或损失为标志(图。3).安静亚型似乎在前列腺癌研究中很常见7923,而泛癌症共识驱动因素的数量20.从子类型A(中位数,2名司机)增加到B(中位数,3名司机),C(中位数,3名司机)和D(中位数,4名司机)。

图3:四种不同亚型的体细胞畸变的意义。
图3

一个,利用不同突变类型组合分析驱动基因的长尾(CDS,编码驱动数据;NC,非编码驱动数据;SV,显著循环断点数据;和CN(基因级CN数据),结果在亚型中鉴定出124个优先突变基因。根据突变频率排序,在PCAWG联盟中有100个(80.6%)被报道为显著复发突变/SV断点20., 24个(19.4%)在本研究中显著突变(星号)。使用iClusterplus,对所有突变类型进行无监督分级聚类,确定了四种前列腺癌亚型(A-D;无花果。2摄氏度),显示了183个患者(行)和124个突变基因(列),每个亚组按血统排序。祖先多样化的亚型A和C突变安静,分别以CN缺失为标志。非洲特异性/优势亚型B和D分别以CN增益和突变噪声为标志。X染色体上的三个基因,KDM6AATRX而且ZMYM3由于C.亚型中存在大量纯合子(homo.)损失,因此被认为是显著的。染色体;半。,hemizygous; ISUP, International Society of Urologic Pathologists; NA, not applicable.b, A亚型欧洲患者无生化复发(BCR)生存比例Kaplan-Meier图(n= 161)与C (n= 19)。c,欧洲A亚型患者癌症生存概率Kaplan-Meier图(n= 82)与C (n= 17)。为b而且c,概率估计值,95%置信区间,双面P值(log-rank测试)被指示。

使用分析中的所有突变类型,在四个亚型中有124个基因发生显著突变(FDR = 3.742 × 10−13-0.067;无花果。3),发生在31 ~ 183例患者(频率,0.17-1)。其中,有100个基因在PCAWG中被报道为致癌驱动因子20.,FOXA1而且SPOPTCGA亚型中的24个新突变基因主要受SV断点和cna的影响。突变基因中位数分别为:A亚型28个(3 ~ 105个),B亚型82个、C亚型98个、D亚型93个(42 ~ 109个、72 ~ 112个、49 ~ 107个);尽管不同的突变类型倾向于在基因和/或患者中同时发生(补充表)7),在安静亚型A中明显观察到小突变(编码和非编码),支持在肿瘤发生的早期获得24.我们在肿瘤亚型中优先突变的基因类似于前列腺癌驱动因素的长尾18,其中一些对许多肿瘤有高度影响,但大多数只影响少数肿瘤。

在我们的肿瘤亚型中,124个优先突变基因对应于8种TCGA/ICGC癌症途径(补充信息和扩展数据图。5).6个基因在来自非洲个体的肿瘤中显示出轻微的突变频率,影响表观遗传机制的基因明显偏向于欧洲个体(OR = 5.586,P= 2.9 × 10−7;扩展数据图。6 b).通路富集分析支持癌症通路的5个功能网络,其中2个参与信号转导和DNA检查点过程,8个通路中的5个与之相互作用(扩展数据图)。6及补充表8).

全球分子亚型

通过结合分子分析和患者人口统计学、遗传血统和地理,我们确定了一种新的前列腺癌分类法,我们将其定义为GMS(图2)。二维).而所有来自澳大利亚的欧洲患者(n= 53)及巴西(n= 3)局限于GMS-A和GMS-C,来自非洲个体的肿瘤分散在所有四种亚型中。我们发现GMS-B和GMS-D在非洲个体中占主导地位,GMS-B包括一名混合血统(92%非洲血统)的患者,GMS-D包括一名混合血统(63%非洲血统)和一名欧洲血统的患者。后者是我们研究中仅有的五位在非洲出生和长大的欧洲人之一。与其他欧洲血统的患者相比,该患者在所有类型中表现出最高的突变密度。通过整合分析,个体突变类型的替代共识聚类大多概括了亚型(补充表6).进一步纳入中国亚洲高危前列腺癌数据11n= 93;扩展数据图。7一个),我们发现GMS-A在祖先和地理上具有普遍性,而GMS-D仍然是非洲特有的,新的GMS-E正在出现。GMS-B仍然是非洲特异性的,GMS-C仍然是欧洲-非洲特异性的。虽然所有患者在取样时都是首次接受治疗,但我们的欧洲队列招募了大量的随访数据(中位数±s.d。(122.5±44.4个月)。有趣的是,生化复发(图;3 b)和无死亡生存概率(图;3 c)解释了通用GMS优于欧洲-非洲GMS患者的临床结果(GMS- a vs GMS- c,对数秩检验,P= 0.008和P= 0.041)。

我们的GMS分类法可以在以下方面利用泛癌症研究。首先,PCAWG项目的患者抽样策略在每种癌症中都相当相同,因此抑制了全球限制性亚型的发现3.13(扩展数据图。7 b).二、遗传祖传25患者的地理数据应该包括在癌症分子分析中。最后,在癌症研究中纳入种族差异需要适当地解决抽样队列中的遗传混合问题,因为过低的祖先界限似乎会在个体之间产生高度混合但相似的祖先,因此不鼓励种族多样化的样本。

新的和已知的突变特征

接近突变特征对单个癌症基因组的贡献有助于将突变特征与促进人类癌症发展的外源性或内源性诱变原接触联系起来3..在这里,我们使用非负矩阵分解生成了CN和SV签名列表以及它们对前列腺癌的贡献26(扩展数据图。8 a、b).结合已知的小突变签名目录,包括单碱基取代(SBSs)、双碱基取代(DBSs)和indels (IDs),我们不仅观察到突变特征数量的显著变化,而且还观察到非洲个体肿瘤中的过度表达(扩展数据图)。8 c).总体而言,96个SBS、78个DBS和83个ID特征在非洲个体中检测的总数显著高于欧洲个体(SBS为3399个,欧洲为2840个)。P= 0.014;DBSs, 42 vs 32,P= 0.006;id, 374对360,P= 0.016, 2 -samplet测试)。我们为每个小签名类型生成6个从头签名(中值余弦相似度分别为0.986、0.856和0.976),分别对应12、7和8个全局签名(中值余弦相似度分别为0.966、0.850和0.946;扩展数据图。9),其中26个可能是生物来源(SBS47,可能是测序人工制品)。DBSs约占sbs患病率的1%。非洲人的CN特征也更大(CN, 3,971对2,721,P= 1.92 × 10−8;SV, 94 vs 88,P= 0.100)。最近一项泛癌症研究定义了SV特征26每一个都是互斥的,包括简单的sv(根据大小,复制时间和在脆弱位点的发生而分割),模板插入(按大小分割),本地n-跳转和local -远端集群。对突变谱样本矩阵进行因子分解,确定了6个CN特征(CN1-6)和8个SV特征(SV1-8),以及它们对每个肿瘤的贡献。

我们发现全谱突变特征(SBSs, dss, id, CNs和sv)支持我们新描述的GMS。每个肿瘤中顶部特征的富集记录与分类亚型的类型显著相关,除DBSs (P= 5.1 × 10−7-0.017,单因素方差分析(ANOVA)或Fisher精确检验;扩展数据图。8 d).无论特征类型如何,40个突变特征中有13个与我们的GMS呈负相关或成正比相关(FDR = 4.97 × 10−13-0.095, Spearman相关;无花果。4).复制签名,包括CN1(串联复制)、CN4(全基因组复制)、SV2(插入)和SV5(大复制),偏向于突变噪声最大的亚型(扩展数据图)。8 a、b),其中CN4和SV5在非洲较为常见(相关系数=−0.24,FDR = 0.005-0.006)。数字4 b结果表明,与通用GMS-A相比,GMS-B、GMS-C和GMS-D的重复特征的基因组畸变比例至少高1.5倍。此外,非洲特异性亚型GMS-B由几个CN4和SV5基因组畸变组成,主要由CN扩增(>5个拷贝,主要是>100 kb)和串联复制(在DNA复制的早期到晚期,大小<5 Mb)组成。此外,在我们GMS中报道的32个前列腺癌高突变基因中,30个突变密度与不同的体细胞特征显著相关,其中CN2、CN6和SV6特征最多,主要由基因组缺失引起(FDR = 1.61 × 10)−7-0.082)。

图4:每个突变特征所造成的基因组畸变估计。
图4

一个,总突变特征与临床和基因组特征的相关图。每个点的大小表示斯皮尔曼相关的FDR值P值(双面)使用Benjamini-Hochberg校正。每个点的颜色代表相关系数。GMS子类型分别为A-D子类型1-4;非洲,混合和欧洲分别记录为1-3。前列腺癌32个复发基因的相关性在图上显示x轴。许多大小突变特征与GMS一致。HR,同源重组;PSA,前列腺特异性抗原。b,描述了在癌症亚型中观察到的重复签名的比例的桑基图。复制特性,包括放大(Amp)、易位(trans)加、局部n-跳转,模板插入(in),杂合性放大损失(LOH),增益,串联复制和增益LOH(扩展数据图。8 a、b)按子类型求和,加权为20。连接节点(GMS、特征和特征)之间的链接的宽度与它们所属的每个GMS亚型中所有患者的CN或SV特征的总数成正比。请注意,我们认为GMS-B是非洲特异性基因组亚型的身份。

GMS的演变

个体躯体事件的时间轴估计反映了不同患者的进化周期;例如,一名患者中来自克隆的一组相同的改变在另一名患者中表现为亚克隆事件(扩展数据图。10 a, b).然而,它们在一定程度上提供了每个样本中存在的驱动突变和cna的顺序24.所有驱动程序和cna的聚合单样本排序的重建揭示了每个GMS子类型所特有的不同进化模式(图2)。5 a、b和扩展数据图。10 c).我们为每个GMS亚型绘制了大约的癌症时间表,描绘了驱动基因的顺序、复发的cna和签名活动与全基因组复制的时间顺序交错,以及导致诊断的最近共同祖先的出现。基本上,驱动因素和cna的相互作用显著共存(OR = 2.6-97.8,P= 2.04 × 10−30-0.01),支持它们在重建时间线内的克隆和亚克隆有序状态。在每个GMS亚型中丰富的SBS和indel特征在克隆和亚克隆状态之间显示出突变谱的变化,表明突变率的差异。时钟样cpg - tpg突变和患者年龄调整图显示,普遍GMS的中位突变率低至0.968 /年,但在非洲个体特异性GMS- d中观察到的最高突变率为1.315 /年。GMS-B和GMS-C的比率分别为每年1.144和1.092。评估体细胞驱动事件的相对时间,TP53突变和伴随的17p缺失是特别有趣的,发生在GMS-C进展的早期和GMS-A的晚期。车手赛事时间相关的联赛模型(补充信息的分数概率分布一致TP53在早期阶段的改变,但大多数处于进化的中间状态(扩展数据图。10 d).这种体内肿瘤发展的基本知识表明,一些肿瘤在达到恶性潜能之前可能有更短的潜伏期,因此,已知其主要克隆的基因组异质性对于早期检测铺平道路至关重要。

图5:全局突变亚型的进化历史。
图5

一个通用亚型(A)的癌症时间线从受精卵开始到队列中患者的年龄。b, GMS-C的癌症时间线。对主要事件的估计,如全基因组复制(WGD)和最近共同祖先(MRCA)的出现,用于大约按时间顺序定义肿瘤进化的早期、可变、晚期和亚克隆阶段。当克隆早期和晚期不确定时,就指定可变阶段。如果以前的研究中存在驱动基因和CNAs,则在每个阶段显示820.并由MutationTime定义。R程序。突变特征(Sigs),平均而言,改变在肿瘤进化的过程中,或基本上是活跃的,显示在描述补充信息.匕首符号表示有不同时间的改变。计算突变和cna之间显著的相互作用事件,以支持癌症时间线。OR和双面P值用费雪精确检验计算。当or >分别为2或or < 0.5时,视为共现事件或互斥事件。GMS-A和GMS-C之间的相互作用具有重要意义P取值范围为2.04 × 10−30到0.047,从1.64 × 10−27分别为0.045。每Gb cpg - tpg负担的中位突变率是使用癌无性系和最大分支亚无性系的年龄调整分支长度来计算的。突变率图一个而且b显示中位数±2ses。将拟合数据分别表示为虚线和误差带。c, GMS-A-D在祖先/全球不同人群中的分布的世界地图示意图。GMS的基因-环境相互作用如图所示。具有不同祖先(种系变异)的患者数量按亚型分层并与特定地理或环境暴露相关(双面)P= 0.0005, Fisher精确测试(2000个自举)。

讨论

我们的研究是撒哈拉以南非洲最大的全基因组前列腺癌基因组资源之一(摘要见补充表)12).承认缺乏南非患者临床分期的信息(在诊断时招募),我们描述了一种前列腺癌分子分类学,确定了具有遗传特征的GMS。与之前使用前列腺癌显著突变基因的分类学相比718,我们发现GMS子类型补充了已知的子类型,如SPOP而且FOXA1突变,与本研究中代表性不足的亚型相反,包括基因融合(扩展数据图)。4).我们还发现,GMS亚型与已知的癌症体细胞突变目录中报告的突变特征相关,其中每个肿瘤由不同程度的外源性和内源性诱变原暴露表示3..我们的研究使用了PCAWG联盟对38种癌症类型的进化进行分析24认识到每个GMS亚型代表了一个独特的进化史,其驱动因素和突变特征在癌症阶段不同,并将体细胞进化与患者的人口统计学联系起来。因此,有些是在泛癌研究中未观察到的罕见或地理上受限的特征3.13

我们考虑了两种极端的情况,通用的GMS-A与非洲特有的GMS-B和GMS-D,这将受到两种不同的突变过程的影响,以简化概念(图2)。5度).其中一个因素是遗传因素272829有助于内源性突变过程,特别是那些具有显著的种系-体细胞相互作用,如TMPRSS2-ERG这种融合在非洲和亚洲血统的男性中并不常见1130.,生殖系BRCA2突变和体细胞SPOP司机和他们各自的司机同时出现3132.另一个因素是特定于特定环境或地理区域的可改变的环境属性,到目前为止,尚未在前列腺癌中观察到。它们作为致突变力量,导致健康组织在整个生命过程中对点突变的正向选择3334和癌症35在正常衰老和癌症组织之间形成流体边界。根据奥斯曼36,上述基因-环境相互作用模型是在不同环境暴露的个体中某一基因型对疾病的影响不同,或者在不同基因型的个体中某一环境暴露对疾病的影响不同时观察到的。其他GMS子类型将是这两个过程的组合,需要更大的人口获取祖先的多样性,而不是种族和地理多样性。因此,该研究直接解释了前列腺癌的巨大空间基因组异质性及其在理解疾病病因方面的相关进化史。

我们的研究表明,在统一的分析中,更大的地理种族多样性和祖先定义人群的基因组数据集将继续识别前列腺癌和潜在的其他癌症中罕见的和地理上受限的亚型。我们证明,患者的祖先和地理属性可以促进癌症人群基因组学的研究,这是癌症个性化基因组学的替代方案,以更好地科学理解先天与后天。

方法

患者队列和WGS

我们的研究包括183名未经治疗的前列腺癌患者,他们是在知情同意和适当的伦理批准下招募的2)来自澳洲(n= 53),巴西(n= 7)和南非(n= 123)。虽然与病理分级相匹配,但如先前报道的那样,我们的非洲患者的前列腺特异性抗原水平显著升高16我们不能基于潜在转移的基础上排除(因为该队列中转移的数据不可用)。从新鲜组织和匹配的血液中提取的DNA在Illumina NovaSeq仪器上进行2 × 150 bp测序(加文医学研究所金霍恩临床基因组学中心)。

WGS处理和变量调用

使用bwa (v.0.7.15)对原始测序读取的每个通道与人类参考hg38 +替代contigs进行比对。37.来自同一库的lane级BAM文件被合并,重复的读取被标记。使用Genome Analysis Toolkit (GATK, v.4.1.2.0)进行基础质量再校准38.受污染及重复的样本(n= 8)被移除。我们实现了发现种系和体细胞变异的三条主要管道,后者包括小(SNV和indel)到大基因组变异(cna和sv)。使用的完整管道和工具可从悉尼信息中心(SIH),核心研究设施,悉尼大学(见“代码可用性”部分)。可扩展的生物信息学工作流程在补充信息中描述4

使用fastSTRUCTURE (v.1.0)估计遗传血统39,对于一个非常大的变量数据集的边际似然的最佳近似的贝叶斯推断。本研究中比较非洲和欧洲血统的参考组是从以前的全基因组数据库中检索的19

嗜色症和嗜色丛分析

使用ShatterSeek检测前列腺肿瘤的聚集性基因组重排(v.0.4)40和ChainFinder (v.1.0.1)41.我们的体细胞SV和体细胞CNA调用集是使用自定义脚本准备和共同分析的(参见“代码可用性”部分;补充信息6).

突变递归分析

我们使用了三种方法来检测基于三种突变类型的周期性突变基因或区域,包括小突变、sv和cna(补充信息)7).简而言之,在给定的基因组元素中,小突变被测试为明显比相邻的背景序列更突变。基因组元件检索自PCAWG联盟的syn525988620.,为一组编码序列和10组非编码区域。用γ -泊松回归对给定基因的SV断点进行统计富集测试,并通过基因组协变量进行校正12.使用GISTIC (v.2.0.23)检查局灶性和臂级复发性cna。42.PCAWG发表的编码区和非编码区已知驱动突变20.4344在我们的183个肿瘤中也有记录,那些前列腺癌基因也包括在内78121718

前列腺癌亚型的综合分析

使用iClusterplus对183例患者的三种基因组数据类型进行了整合聚类1145在R中,输入如下:(1)驱动基因和元件;(2)体细胞CN段;(3)显著周期性的SV断点。我们运行iClusterPlus。tune with clusters ranging from 1 to 9. We also performed unsupervised consensus clustering on each of the three data types individually. Association analysis of genomic alteration with different iCluster subtypes was performed in detail (Supplementary Information8).研究报告了不同iCluster亚型的驱动突变、复发断点和体细胞cna的差异。

iCluster与亚洲和泛癌症数据的比较

为了比较现有人群之间的分子亚型,中国前列腺癌基因组和表观基因组图谱(CPGEA)PRJCA00112411与我们在上述三种数据类型上的综合聚类分析合并和处理,并进行了一些修改。此外,我们还利用了PCAWG联盟的数据13利用已发表的体细胞突变、SV和GISTIC基因结果,定义其他癌症类型中不同种族人群的分子亚型。由于非洲、亚洲和欧洲现有的原始祖先至少占70%,因此考虑了乳腺癌、肝癌、卵巢癌和胰腺癌等四种癌症类型。详情见补充资料8.4

PCAWG13对前列腺癌患者进行检索,并与澳大利亚临床随访数据进行比较。只有欧洲血统超过90%的人(n= 139)对iCluster亚型的三种基因组数据类型以及个体共识聚类进行了分析。选取与上述较大队列规模相同的聚类结果进行关联分析。使用Kaplan-Meier图评估不同亚型参与者的生化复发和致命前列腺癌的差异,然后使用log-rank检验进行显著性检验。

突变特征分析

突变签名(SBSs, dss和indels),由PCAWG突变签名工作组定义3.,适用于使用SigProfiler观察到的特征活动的单个肿瘤46.采用非负矩阵分解检测183例患者的从头特征和全局特征及其贡献。新的突变基因组重排特征(CN和SV)也使用非负性矩阵分解进行,在183个肿瘤中检测了45个CN和44个SV特征。我们遵循PCAWG基因组重排的工作分类和注释方案26.使用两个SV调用程序来获得精确的断点坐标。早期、中期和晚期复制时机评分分别设置为>75、20 - 75和<20,影响SV检测47.详细的分析步骤,参数和相关的统计检验在补充资料中提供9

癌症时间线的重建

使用MutationTimeR对CN增益和驱动突变(SNVs和indels)在癌症进化的四个阶段(早期克隆、未指定克隆、晚期克隆和亚克隆)进行计时24.CN增益包括2 + 0、2 + 1和2 + 2(二倍体基因组为1 + 1),这是为了更清晰的时代边界,而不仅仅是变异等位基因频率的信息。置信区间(t- - - - - -t向上),以200个自举来计算时间估计。根据参考文献计算各亚型的突变率。24CpG-to- tpg突变被计算在分析中,因为它们归因于CpG二核苷酸上5-甲基胞嘧啶与胸腺嘧啶的自发脱氨,因此起着分子钟的作用。

采用联盟模型相对排序来汇总所有研究样本,以计算驱动突变和复发性cna的总体排名。如前所述,排序的信息来自每个驱动突变的时间以及克隆和亚克隆CN段的时间。详细描述见补充信息10

报告总结

有关研究设计的进一步资料,请参阅自然研究报告摘要链接到这篇文章。