介绍

个体在学业成绩上的差异是由基因和环境之间复杂的相互作用形成的。生物生态模型等儿童发展理论强调,环境是由多个层面组成的,不仅包括家庭,还包括学校、社区,以及更广泛的社会、制度和文化1.尽管孩子的直接社会互动和正式学习发生的环境(家庭和学校)理论上是最重要的,但更多的远端因素(社区和社会机构)也应该对成绩有影响23.4.关于这些水平的相对重要性的经验证据仍然很少,因为对其中任何一个水平的综合测量都是困难的,而且重要的是,因为分离这些相互关联的水平的影响是具有挑战性的。例如,控制学校后,邻里影响可能会减弱5

基因-环境相互作用研究的重点是遗传效应的环境偶然性(反之亦然)6.一种有影响的相互作用假设是,劣势(例如智力和财力资源不足的环境)抑制了遗传对认知发展的影响,而优势则允许表达遗传差异。这个模型,通常被称为scar - rowe相互作用7,已经导致了一个概念,高遗传力是一个有利的环境的标志8.然而,该模型并没有在成就和认知的经验数据中找到一致的支持。很多,但不是全部9美国对双胞胎的研究发现,基因的影响在社会经济地位较高的家庭中更强,而欧洲和澳大利亚的研究发现没有或相反的结果10.最近的一项双胞胎研究发现,在挪威、德国和美国的样本中,成就的遗传力估计在父母社会经济地位的水平上是不变的,但在瑞典的数据集中,遗传力估计在更弱势的家庭中更强11.基因组研究也发现了大部分无效结果。多基因指数(PGI)——衡量个体水平的性状遗传倾向——在成就结果分析中通常似乎与环境没有相互作用。即使模拟了许多PGI和家庭环境指标,包括家庭混乱、父母失业、父母受教育程度和收入,这一点也成立121314.关于斯卡尔-罗相互作用是否适用于所有的环境经验,还是只适用于极度匮乏的环境,人们一直争论不休15

三个关键因素限制了基因-环境相互作用和scar - rowe模型先前证据的效用。首先,所考虑的环境范围通常很窄,主要集中在家庭的“微环境”上。16比如父母教育。几项研究表明,家族以外的基因-环境相互作用值得进一步研究。基因对成就的影响(至少在美国是这样)似乎在较高的邻里收入、较高的学校质量和较高质量的教师存在时更强171819,与scar - rowe模型一致。然而,我们不知道有任何研究同时考虑了多个相关的环境层面,正如生物生态模型所推荐的。如果不区分相互关联的环境的影响,教育干预可能会被误导。

其次,绝大多数研究都在测试个体遗传差异与任何事物的相互作用具体的环境措施可用。这个策略,虽然允许任何相关的交互上下文被精确定位,但未能捕获交互的全部重要性,包括与未测量的或潜在的环境。两项研究使用了多层次模型来估计学校和PGI之间相互作用的总规模20.21.多水平建模方法是有用的,因为它不确定环境水平的具体特征(难以准确识别和测量),但表明在不同水平上对特定测量环境的调查是否合理。

第三个困难是解释源于基因-环境相关性的社会背景的内生性22.事实上,父母为子女选择学校和居住区域是众所周知的。当选择是基于遗传特征时,被动基因-环境相关是可能发生的,因此后代从父母那里继承相关的环境和遗传倾向623.当孩子们自己选择环境时(例如,考试成绩让他们进入了重点学校),活跃的基因-环境的相关性可以发生。在存在基因-环境相关性的情况下估计基因-环境相互作用可能导致假阳性结果2425.在这里,我们利用父母到孩子基因遗传的随机特性来控制基因-环境相关性。在控制亲代基因型的情况下,后代基因型的影响完全是由于减数分裂过程中遗传物质的随机分离,而不是被动的基因-环境相关和其他混杂效应。

综上所述,以往的研究由于局限于关注家庭层面的环境,没有估计基因-环境相互作用的全部规模。在已经发现相互作用的地方,它们可能被不同程度的环境因素所混淆,与所测量的环境因素不同,和/或被基因-环境相关性所混淆。这表明需要一个更全面的研究策略,以更广泛的方法来研究儿童的社会背景。

在这里,我们使用居住在挪威的23000个>亲子三人组的样本,来量化学生的教育成就PGI (EA-PGI)和教育成就PGI之间的相互作用如何影响学校成就多个社会背景的层次。我们使用多级模型进行估计总计PGI与学校、社区、地区和市政当局的互动,同时对这些环境的具体特征保持不可知论。我们使用家庭内部EA-PGI(根据父母PGI调整的儿童PGI)控制被动基因-环境相关。在描述了全部交互作用效应之后,我们研究了交互作用是否可以用测量的社会人口特征来解释,还是仍然有待确定。生物生态模型提出了这样一种假设,即交互作用存在于不同的环境层次,但在更远的层次(如城市)上较小。scar - rowe模型预测,PGI效应在较不利的环境中(例如,平均成绩较低的学校)较弱。挪威是一个相对平等的国家,几乎所有的孩子都在当地的公立学校上学,社会差异通过再分配政策最小化2627.然而,学校和居住区对教育的平均影响较小,可能掩盖了对具有某些个体特征的学生的更大影响。我们的基因-环境交互策略旨在描述这些孩子的特征,并最终确定哪种环境最适合他们。

结果

我们将来自挪威母亲、父亲和儿童队列研究(MoBa)的基因数据与有关5、8、9年级年轻人数学、阅读和英语标准化国家考试成绩的管理数据,以及他们的学校、社区、地区和市政成员身份的数据进行了整合。我们的模型包括23,471名学生,他们的成就、教育成就多基因指数(EA-PGI)、学校和住所标识以及父母变量(EA-PGI、教育成就和收入)的数据不缺失。参与调查的学生就读于2578所学校,居住在408个市、1440个区和7700个社区。平均每所学校有11名学生(范围1-66,中位数8),每个城市有57.3名学生(范围1-1643;中位数20),每个区16(范围1-268,中位数11),每个社区3(范围1-51,中位数2)。每个社区的居民生活在同一个区和直辖市,但生活在同一社区的人并不总是上同一所学校,反之亦然(在84%的社区,所有学生上同一所学校;上同一所学校的学生平均来自5个不同的社区)。见补充表1用于分析变量的描述性统计。

我们首先展示了三个研究变量的城市水平平均值(图。1).这些地图突出了我们基因和社会经济数据的全人口覆盖:只有少数城市没有被研究参与者覆盖。数字1a和c分别表明在学生成就和教育成就的多基因指数(EA-PGI)方面存在一些城市水平的差异。数字1 b显示出更清晰的模式,反映出在主要城市(奥斯陆、卑尔根、特隆赫姆、斯塔万格、特罗姆瑟)及其周边地区上学的孩子的父母收入最高(绿色最强)。

图1:挪威城市,用我们分析样本中学生的变量平均值着色(a =成绩;B =家庭收入;c =学生EA-PGI)。
图1

注:由于学校和社区标识符的匿名性,我们聚合到更广泛的市政级别。地图基于5级变量和住宅标识符。灰色=没有参与者居住在该城市。有些城市人口比较稀少,因此颜色的深度只能反映一两个参与者。这并不适用于学校水平的家庭收入(1B),这是基于学生的平均收入所有参与者学校同龄人的父母,而不仅仅是其他研究参与者的父母。

学生评核-评核指数与学校(不包括住宅区)的互动

为了测试基因-环境的相互作用,我们比较了在学校和住宅区之间,有和没有不同的EA-PGI对成绩(数学、阅读和英语科目的综合)的影响的多层模型的拟合。我们从一个简单的固定效应模型开始,在EA-PGI和协变量上回归学生成绩。然后,我们测试模型拟合是否在包含随机截距(即学校和居民区的主要影响)和随机斜率(即学生EA-PGI与学校和居民区的相互作用)后得到改善(见表)1).这种多层次建模方法可以估算学校和住宅水平的总潜在影响,而不必测量特定的环境。由于在所有模型中都对父母的EA-PGI进行了调整,学生的EA-PGI效应反映出较少的偏差家庭内部遗传的影响,与父母选择的环境分离。但请注意,由于PGI是使用来自家族间GWAS的SNP权重计算的,因此可能存在一些偏差,这是由于缺乏排除MoBa的强大的家族内GWAS。

表1模型拟合过程。

最佳拟合模型-表中3a模型1-包括学校的随机斜坡和截距,但只包括住宅区的随机截距(不包括斜坡)(见补充表)2浏览合适的统计数字及补充表3.结果)。这表明,学生的EA-PGI的影响取决于学校,而不是邻里、地区或市政当局,它们对成绩的主要影响很小。按居民区解释的成绩差异,市镇为1%,社区为1%,区为<1%(见补充表)4对于类内相关性)。

ea - pgi -学校互动的三个主要方面如图所示。2,显示了学校特定的EA-PGI对成绩的影响。首先,EA-PGI对成绩的平均影响为0.22,但在这一平均斜率附近,各学校之间存在差异(斜率的标准差= 0.034)。在2.5%的影响最弱的学校(红线),学生的EA-PGI的影响是一个SD的15%(即0.22-1.96 *0.034),而在2.5%的影响最强的学校(蓝线),EA-PGI的影响是一个SD的>29%。因此,由EA-PGI解释的差异是前一组学校的4倍多(~8%对2%)。

图2:家庭内部EA-PGI与成就之间的学校特定关联。
图2

红色为2.5%的学校的回归线,其中家庭内部的EA-PGI效应最弱;蓝色的是2.5%的PGI效应最强的学校;R2=差异解释在成就。在学生平均成绩较高的学校,家庭内部的EA-PGI的影响较弱。在EA-PGI较低的学生中,学校成就差异更大。注意,样本量为23471名儿童,就读于2578所学校。

其次,斜率-截距相关性为负,这意味着在学生整体成绩较高的学校,学生的EA-PGI的变化对成绩的影响较小。如图所示。2与蓝线(最强斜率)相比,红线(最弱斜率)的更高位置(截距)。

第三,这种相互作用也意味着学校对学生成绩的影响因学生的EA-PGI而异。图中的回归线。2在较低的EA-PGI值时呈扇形向外扩散,随着EA-PGI的增加逐渐向内扩散。这说明了学校如何对EA-PGI较低的学生的成绩产生更大的影响。相比之下,对于EA-PGI较高的学生,无论在哪个学校,成绩都更相似。数字3.显示了学校对成绩的影响如何随着学生EA-PGI的增加而下降,在EA-PGI 2 SD低于平均值的学生中,学校解释了4%的成绩差异,而在EA-PGI 2 SD高于平均值的学生中,学校解释了2%的成绩差异(见补充表)3.计算)。

图3:学校对成就的影响在家庭内部的EA-PGI值中有所不同。
图3

对于家庭内EA-PGI低于平均值2 SD的学生,学校解释了~4%的表型方差,而对于PGI高于平均值2 SD的学生,学校解释了~2%。

重要的是,这种最合适的模式包括了对入学选择的严格控制。通过消除从父母基因型到学生成绩(包括社会选择)的途径,控制父母的EA-PGI减少了学生EA-PGI与学校之间的联系。事实上,家庭内儿童PGI没有显示出学校级别的聚类(补充表4 b).此外,这种相互作用捕获了与学校水平效应的遗传相互作用,其中学校效应是家庭社会背景(父母的收入和教育,以及父母的EA-PGI)的净影响,以及所有潜在的邻里、地区和市政水平的成就差异。

为了探究基因-环境相互作用是否由特定的学校科目驱动,我们分别估计了数学、阅读和英语的最佳拟合模型(3a),而不是成绩综合模型。结果表明,互动涉及数学和阅读多于英语。学校间EA-PGI效应的斜率标准差为数学0.035,阅读0.027,英语0.004。

学校社会人口学指标与学生EA-PGI之间无交互作用

为了补充与学生家庭内EA-PGI相互作用的学校因素不确定的多层次分析,我们探索了五个学校水平的协变量(同时测试)是否解释了相互作用。这些数据包括父母在学校的平均受教育程度、父母的平均收入、非西方移民的比例,以及每所学校父母收入和教育不平等的基尼指数。这些学校社会人口统计的测量方法都不能解释为什么遗传效应在学校之间的强度不同:坡度的差异没有通过包括协变量而减弱,协变量- pgi相互作用并没有改善模型拟合。见补充表3 b查阅结果及补充表2适合的统计。

讨论

我们调查了教育成就的基因-环境相互作用,整合了生活在挪威的23000个>家庭的基因、学校和居住信息。通过包括多个层面的环境背景,我们的研究比以往的工作更加全面。我们发现了学生的教育成就多基因指数(EA-PGI)和他们的学校之间相互作用的证据,即使在我们严格的家庭内部基因设计中,基本上是将学生随机分配到学校。表现较好的学校弥补了较低的EA-PGI,因此基因影响在这些学校较弱。令人惊讶的是,在平等主义的背景下,学校间的社会差异对EA-PGI较低的学生的成绩影响更大。学校社会人口统计指标不能解释所观察到的pgi -学校互动。居住环境(社区、地区和市政当局)对成绩的变化影响不大,也不影响学生的EA-PGI。这种社会遗传方法有助于确定哪种学习环境适合谁。

这里确定的相互作用表明,在挪威,学生的EA-PGI和学校对成就的影响不能独立解释。家庭内部的EA-PGI效应因学校而异,在整体表现较高的学校中,孩子之间的PGI差异不那么显著。这补充了来自美国的证据,即较高地位的学校缓冲了EA-PGI较低的学生退出高等数学课程的风险28.我们还复制了他们的结果,与阅读和英语相比,学校互动对数学的PGI特别强。在未来,确定可以将遗传风险的后果最小化的特定学校因素将是重要的。这些结果与scar - rowe模型相反,因为在较不利的环境中,遗传禀赋的起始差异的影响没有被抑制,而是被放大了。然而,在另一个不同的背景下,如果挪威没有重新分配资源以确保高质量和普遍可获得的教育(如最初的斯卡尔-罗研究),基因效应可能不会在表现最好的学校中最强。

重要的是,交互作用还揭示了学生的EA-PGI越低,学校创造的成就差异越大。考虑到几乎所有的挪威学生都上公立学校,观察到这种由学校引发的社会不平等现象是令人惊讶的,这种不平等集中在那些可能最需要支持的人身上。即使严格控制了被动基因-环境相关性、家庭社会经济背景和居住区域,这一结论仍然成立。政策制定者可能想要集中精力寻找方法,为那些在EA-PGI分布上同样低的学生在学校之间平等的机会。我们的发现还表明,社会科学家在估计学校影响时应该考虑个体差异。综合估计,在许多研究中都很小2729,隐藏了学校对EA-PGI较低学生的更大重要性。

由于我们的多层模型不确定学校特征,因此观察到的学生的EA-PGI与学校之间的相互作用是潜在的。这为研究具体的学校因素驱动相互作用提供了必要的理由。然而,我们的五个学校社会人口统计指标似乎都没有涉及。如果我们依赖于测量环境的方法,基因-环境的相互作用就无法被检测到。我们发现的潜在交互作用与可忽略的测量协变量之间的差距,突显出有必要更好地描述挪威学校的某些方面,这些方面改变了儿童个体遗传差异的作用。尽管班级规模等因素对成绩的主要影响可能不大30.在美国,它们仍可能在与儿童之间的遗传差异的相互作用中发挥重要影响。我们的方法提供了一个框架来测试学校特征的交互作用。

正如生物生态模型所提出的,我们发现较远的环境层次(社区、地区和市政当局)对学生成绩的影响不如学校重要。然而,与生物生态模型不同的是,我们观察到由居民区解释的总潜在方差很小(尽管在统计上具有显著性),而且区域效应与儿童个体遗传差异没有相互作用。这可能是因为,阅读和数学方面的学术技能是学校教育的直接目标,而不是居民区,这使得学校成为放大或缩小个人教育成功倾向的地方。实际上,我们发现挪威的居民区并没有在影响孩子学习成绩方面有很大的差异(例如,我们样本中所有的社区差异仅解释了0.5%的方差),这表明将居住因素作为干预目标可能不会大大减少社会出身的成就差异。尽管如此,研究结果并没有削弱居住区的重要性。例如,市政当局在提供教育服务和分配资源方面至关重要,而区域不平等可能对许多其他生活结果产生不利影响,例如较晚的受教育程度和身体健康。

本研究有一定的局限性。首先,我们的结果的普遍性是有限的,因为只包括了欧洲血统的参与者。此外,尽管从行政记录中几乎完全覆盖了成绩、学校和居住标识,但MoBa队列研究的非随机参与可能会影响结果。第二,目前的EA-PGI没有捕捉到教育的全部遗传成分,因此我们的分析没有告知与学校的遗传相互作用的总规模。第三,EA-PGI是基于多种背景下汇集的信息,因此从设计上看可能无法反映教育成就的遗传力,而这部分遗传力对学校和居民区之间的差异最为敏感。未来的研究可以采用一种不那么严格的基因-环境相互作用测试方法,即使用PGI测试环境敏感性31在我们的多层框架中。最后,当我们使用父母的EA-PGI控制被动基因环境时,儿童自身的遗传倾向理论上仍然会影响他们的上学率。然而,家庭内部的EA-PGI并不集中在学校。与英国相比,挪威没有择优小学和中学也令人欣慰,在英国,择优学校和非择优学校之间的考试差异主要反映了入学方面的遗传特征32

我们发现学校和儿童的EA-PGI之间存在潜在的相互作用,这为进一步的识别工作奠定了基础如何学校放大或抑制了孩子之间基因差异对成绩的影响。儿童在学校经历的更详细的方面可能解释了部分潜在互动。了解学校如何区分那些EA-PGI同样较低的学生,可能有助于确定需要通过政策消除的社会障碍。考虑到通过随机对照试验和其他设计确定干预措施的困难,这是一个令人兴奋的前景33.未来的研究还应该调查学校内与儿童基因的相互作用。事实上,挪威学校之间的相似性为学校内老师和朋友的重要影响留下了空间。此外,家庭投资和教育支持可能会缓和学校效应。

综上所述,社会对学业成就的影响是多层次的、相互作用的。在一个大的人口范围的样本中,我们发现学校而不是居住环境(对成绩只有很小的影响)与学生的EA-PGI相互作用。要想全面了解儿童的社会环境是如何运作的,以及如何减少个体特征相似的儿童在学业成就方面的学校驱动差异,这种社会遗传方法是必要的。

方法

挪威的背景

挪威是一个富裕的社会民主福利国家34与其他富裕国家相比,失业率较低,低收入不平等程度相对较低35.尽管如此,财富不平等36儿童贫困现象严重,而且随着时间的推移会加剧37.关于挪威的教育制度,市政一级的公共部门负责提供各种福利服务,包括(免费)义务教育。义务教育是全面的,所有学生都有共同的课程,没有跟踪。不到4%的学生就读于私立学校,这些学校主要是采用另类教学传统的学校、宗教学校或国际学校。就居住模式而言,大多数小学生就读于当地的公立学校。

样本

挪威母亲、父亲和儿童队列研究(MoBa38)是由挪威公共卫生研究所进行的一项基于人群的前瞻性妊娠队列研究。从1999年到2009年,挪威各地招募了孕妇。41%的孕妇最初同意参与妊娠。在被邀请参加的父亲中,82.9%同意。父母代表孩子同意了。总队列包括约114,500名儿童,95,200名母亲和75,200名父亲。到目前为止,已有98,110名MoBa三人组(父母和孩子)的成员进行了基因分型。

目前的分析是在具有全基因组基因分型完整数据的亲子三人组的子样本上进行的,以及教育成就、学校、社区、地区和市政成员的行政记录,通过挪威国民身份证号码系统与MoBa相关联。管理数据是高质量的,不会遭受损耗3940.在分析之前,我们将样本限制在每个家庭一个孩子,随机选择一个兄弟姐妹。我们还将样本限制在那些父母教育和收入的完整登记数据。在进一步的分析中,我们还将样本限制在那些拥有完整的学校社会人口学注册数据的样本。

道德

MoBa的建立和初步数据收集是基于挪威数据保护局的许可证和医疗和卫生研究伦理区域委员会的批准。MoBa队列目前基于与《挪威卫生注册法》相关的法规。目前的研究得到了医疗和卫生研究伦理区域委员会(项目# 2017/2205)的批准。

措施

学业成绩

5年级、8年级和9年级的数学和阅读以及5年级和8年级的英语的标准化全国考试结果是通过与挪威国家教育数据库的链接获得的。这些测试于2007年推出,主要用于监测学校的发展。考试是强制性的,挪威96%的学生参加考试;有特殊需要的学生和学习语言入门课程的学生可获豁免。成绩会传达给老师和家长,但对学生没有直接影响。我们根据学生的性别、当前年龄(以捕捉出生队列效应)和参加考试的确切年龄对他们的考试成绩进行残差分析。我们创建了“核心成就”衡量标准,作为每个年级可用科目的平均分,这些平均分以0为中心,标准差为1。我们之前的研究表明,标准化测试结果近似正态分布,没有表明偏态或天花板效应,并与项目反应理论派生的分数密切相关21

学校、邻里、地区和市政标识符

我们将孩子们的成绩与他们参加考试时就读的学校和居住的地区相匹配。学校标识符来自全国教育数据库(NUDB),三级居住信息标识符(社区、区和市)来自挪威中央人口登记册。邻域标识符用于基本统计单位,称为grunnkretser该调查由挪威统计局设计,以涵盖居住在相同条件下的一致数量的居民(约350人)。社区嵌套在更大的空间内delomrade,或区,这些区又嵌套在市(称为kommune在挪威)。来自一个社区的孩子有时上不同的学校,上同一所学校的孩子可能住在不同的社区。

重要的是,为了协调标识符,使居住在附近的学生被识别为这样的学生,我们转换了尽可能多的标识符,以匹配2018年的值。我们选择2018年,因为这是我们的关联管理数据涵盖的最新时间点。2011-18年(MoBa儿童参加国家标准化考试的年份)之间的大多数变化都是附近城市和地区的合并,总结如下:https://www.ssb.no/metadata/alle-endringer-i-de-regionale-inndelingene.例如,2018年,0702 Holmestrand和0714 Hof slått合并,创建了0715 Holmestrand。因此,我们将0702和0714的出现次数更改为0715。合并到2018年边界后,我们分析样本中的城市总数从460个减少到408个。我们还使用原始居住标识符(在与2018年的值协调之前)进行了分析,并得出了相同的结论(相同的最佳拟合模型,几乎相同的估计;见补充表5 a e).注意,对于被拆分为新标识符的较小区域,不可能使用2018的值。例如,在2017年,奥斯陆的Grønland 1区被划分为3个新的区域(Grønland 7、8和9),但尚不清楚2011-16学年的学生应该得到3个子标识中的哪一个。还要注意,涉及最细粒度级别(社区)的变化是不可能协调的,因为这些,像学校标识一样,是匿名的。这些限制意味着对于少数居住区,我们只能检测到队列区域内对成绩的影响。

学校和居民区的社会人口统计措施

为了补充潜在分析,我们测试了特定的社会人口统计测量是否可以解释通过多层次模型确定的相互作用。我们通过收集来自每个学校注册数据的所有学生家长的管理数据,而不仅仅是MoBa参与者,来创建社会人口统计指标。由于相互作用只存在于学校层面,我们没有测试聚集到居民区的措施。这些措施旨在捕捉每个学校学生的平均社会人口学背景,以及每个学校学生的社会人口学背景的可变性。对于每所学校,我们都包含了五个指标。第一个指标是父母完成教育的平均年限,由挪威教育标准分类(NUS2000)分类转换而来,在学生16岁时进行测量。第二个社会人口指标是父母的平均税前年收入,包括自雇,但不包括资本收入或社会福利转移。我们计算了孩子11-15岁期间父母双方的平均收入,并将他们的收入与同年龄段其他父母的收入进行了比较。第三和第四,我们分别通过计算父母受教育水平和收入水平的基尼系数来衡量社会经济不平等。基尼系数是一种广泛使用的衡量不平等的单一指标,其取值范围为0到1,0表示绝对平等,1表示绝对不平等。 Fifth, we calculated the proportion of children who are non-Western immigrants and/or who are the children of non-Western immigrants. We created these broad measures in the absence of more detailed school data. Notably, the measures could capture effects intrinsic to specific schools (e.g., peer effects) or broader social stratification (e.g., composition of the school catchment area). If the latter is true, then these variables could be considered additional controls for selection into schools and neighbourhoods.

在所有分析中,我们使用相同的父母教育程度和劳动收入作为个体层面的控制变量。

基因型质量控制

目前的MoBa基因组数据集包括98,110个个体(约32,000个亲子三人组;在质量控制之前),来自9批参与者,他们组成4个研究队列。在每一批中,父母和后代遗传数据分别进行质量控制。在以前的出版物中已经描述了预归责质量控制标准。我们进行了imputation后质量控制,保留符合以下标准的snp:所有批次的imputation质量评分≥0.8,无重复(按位置或名称),呼叫率>98%,小等位基因频率>1%,Hardy-Weinberg平衡p < 0.001,不与全基因组水平的基因分型批次相关,不引起孟德尔误差。我们根据以下标准移除个体:杂合性异常值(F-het + /−0.2),呼叫率<98%,报告的性别不匹配的基于snp的性别,重复(使用PLINK的识别)41-基因组命令的pihat > =0.98,通过与人口登记册中唯一id的链接,加上MoBa中的年龄、性别和亲属关系信息,以及近亲数量过多的个体(隐性亲缘关系)和孟德尔错误,将其与同卵双胞胎区分开。为了尽量减少环境混淆,我们通过使用1000基因组参考的主成分分析确定了一个具有欧洲血统的个体子样本;排除异常值的阈值是基于对主成分1和2的图的目视检查。最终通过质量控制的个体数和snp数分别为93,582和6,797,215。基于最终质量控制基因型数据的ld修剪版本,使用PLINK的-within和-pca-clusters命令计算所有参与者的遗传祖先的主成分。

学历多基因指数(EA-PGI)

基于全基因组协会总结统计数据,我们为通过质量控制的所有93,582名MoBa家长和儿童生成EA-PGI42不包括23andMe和MoBa样本。我们使用price软件使用所有snp(即p值阈值为1)计算得分,聚类参数kb = 500,p= 1, r2 = 0.25。我们计算中亲代PGI取平均父母PGI。来自独立家庭的孩子的PGI和中间父母PGI(以下简称“父母PGI”)的均值为0,标准差为1。在所有的PGI分析中,我们将父母PGI作为对照,这样后代PGI的影响是家族内的直接遗传效应。我们还纳入了主成分(5个基于母亲数据,5个基于父亲数据),以控制亲本EA-PGI效应中的群体分层。

家庭内部的EA-PGI的优点是它控制了父母对学校的非随机选择。通过量化学校儿童EA-PGI的聚类程度,我们对此进行了概念验证测试。班级内相关系数表明学校捕获了2.6%的儿童EA-PGI的方差。儿童EA-PGI在居民区的聚集程度更低(社区、区、市的icc分别为0.3%、0.1%和1.2%;补充表4 b).然而,一旦父母的EA-PGI调整,0%的差异在家庭内的孩子EA-PGI解释学校。这意味着在父母的EA-PGI的条件下,学生进入学校的排序是随机的,我们可以根据家庭内部PGI因果解释学校斜率。注意,学校遗传风险的聚类程度可能比使用EA-PGI估计的要大,这只能解释儿童成绩差异的约2-8%。

值得注意的是,尽管我们将亲代EA-PGI作为控制变量,但它们允许我们估计亲代间接遗传效应。这代表了父母教育相关基因对孩子成就的环境影响。然而,父母的间接遗传效应及其调节作用捕获了学校和居民区的选择,并可能受到人口分层、选型交配和被动基因-环境相关性的影响(不像家庭内部的儿童遗传效应)。

统计分析

为了检验受教育程度的个体遗传倾向与学校和居住区域的相互作用,我们比较了一系列日益复杂的多层模型(共11个)。为了确保结果不是偶然产生的,我们正式比较了AIC拟合统计数据。

基础模型(模型1)估计了成就与家庭内EA-PGI(儿童PGI控制中父母PGI)之间的关系。我们汇集了不同年级的数据,包括个人身份证号作为随机截取,时间点作为固定效应,以解释不同时间分数的平均差异。时间点编码为连续变量,9级为0,8级为-1,5级为-4。请注意,9年级的综合成绩只包括数学和阅读,而5年级和8年级的综合成绩包括数学、阅读和英语。

在模型2a-d中,我们测试了成就在不同社会背景下的变化程度。我们从最接近的水平(学校;模型2a),并最终考虑到所有层面(学校、社区、地区和更广泛的市政当局)的环境效应;模型2 d)。具体来说,我们在多层次回归模型中增加了对学校和居民区的随机截取。住宅集群是嵌套的,社区位于区内,区位于市内。由于生活在一个地区的孩子可以上不同的学校,而学校又包含生活在多个地区的孩子,所以学校与居住集群交叉分类。

在模型3a-d中,我们建立了成就情境分层的最佳拟合模式,并使用随机斜率模型来估计情境与EA-PGI效应的相互作用程度。在我们的模型中,我们允许PGI效应在每个具有显著截距方差的聚类中发生变化,并测试模型拟合是否得到改善。

解释坡度变化的环境

为了研究哪些特征可以解释基因-环境的相互作用,我们重新估计了每个学校被试的最佳拟合多层次模型,添加了五种环境测量的固定效应(模型4),然后是环境- pgi相互作用项(模型5)。学校环境对成绩的影响可能是多因素的,以类似于多基因的“多环境”模式运行。因此我们同时包括了测量的环境。如果测量环境考虑了相互作用,则模型5中的斜率方差将减少,模型拟合将比模型4有所改善。这五项社会人口统计指标被联合测试。值得注意的是,虽然我们将这些观察到的措施称为“环境”,但它们本身也部分受到基因的影响。

模型拟合和比较

在所有模型中,共有10个遗传祖先主成分作为控制群体分层的协变量,其中5个是基于母亲的基因型,5个是基于父亲的基因型。虽然儿童的EA-PGI对群体分层的影响是稳健的(当包括亲代得分时),但pc的加入有助于我们解释亲代遗传效应,这可能会因群体分层而产生偏差。所有模型都包含了家庭社会背景(父母教育和收入)的控制,以帮助解释学校和居民区的坡度和截距的因果关系。

使用AIC拟合统计量对模型进行比较,该统计量使用最大似然模型计算模型拟合和模型复杂性之间的权衡,并对参数数量进行惩罚。例如,如果具有跨学校随机斜率的模型比一个更简单的模型具有更低的AIC值,这就是证据,表明基因-环境相互作用应该包括在基础数据生成过程的最佳近似。我们还报告了来自模型比较检验的p值。

软件

映射是用R包fhimaps创建的43,使用2019年的城市边界(只需要从我们主要分析中使用的2018年标识符更改1)。用lme4包在R中进行模型拟合44