背景与总结

Nibea coibor海蜇属海蜇科,主要分布在南海、东海、印度、菲律宾等海域1(无花果。1).它是一种快速生长的鱼类,在中国沿海广泛养殖,具有很高的营养价值和经济价值。早期对这种鱼的研究主要集中在养殖方法和生物学特性方面。近年来,研究主要集中在饲料营养方面23.456,经济增长789和发展101112.有关于线粒体基因组的报道Nibea coibor113;然而,缺乏基因组组装阻碍了对该物种的遗传和进化研究。

图1
图1

的照片Nibea coibor

最近,单分子测序14由于其读取长度长、速度快、准确度高的优点发展迅速,已成为基因组组装的主流测序方法。该技术已成功应用于鱼类基因组的组装,如Oreochromis mossambicus15Acanthopagrus边16Scatophagus argus17而且Hypophthalmichthys molitrix18.PacBio最新更新的在循环一致测序(CCS)模式下产生的高保真(HiFi)序列读取实现了读取长度和碱基质量之间的平衡19.一些用于处理HiFi读取的汇编软件,包括HiCanu20.,猎鹰21和Hifiasm22,可用。其中,Hifiasm22是用于长HiFi读取的最新单倍型解析基因组组装算法。Hifiasm首先执行全对全读重叠比对,然后在默认情况下对排序错误执行三轮错误纠正。然后使用修正后的读数再次生成重叠对齐并构建字符串图。如果存在杂合等位基因,Hifiasm任意选择一个单倍体,并输出一个主装配和一个备用装配。它可以解析重复的序列信息,如着丝粒和端粒信息。与现有的其他算法相比,Hifiasm22具有装配速度快、精度高、连续性好等优点。长长的高保真序列读出了Hifiasm22装配算法,结合Hi-C23技术,实现高质量的染色体级基因组组装。然而,Hifiasm不能正确地解析高度重复的区域24

在这项研究中,我们从一名男性身上提取了DNANibea coibor并使用PacBio平台生成HiFi读取。使用Hifiasm生产了高质量的contig组件。与Hi-C数据一起,Juicer和3D-DNA被用于组装和生成染色体水平的基因组。然后使用三种策略来注释基因组。此外,还进行了基于单拷贝基因的系统发育分析,以了解它们之间的关系Nibea coibor还有其他物种。这是第一个基因组组装Nibea coibor这将有助于了解该物种的基因结构、功能和排列,为后续的遗传育种、进化分析和种质资源保护研究提供依据。

方法

图书馆建设与排序

基因组DNA是从一个男性的肝脏和鳍中分离出来的Nibea coibor分别采用苯酚/氯仿法进行长读测序和短读测序。HiFi SMRTbell库使用SMRTbell Express Template Prep Kit 2.0 (PacBio, CA, USA)制备。用g-TUBE (Covaris, MA, USA)将gDNA剪切至15~18 kb,使用Template Prep Kit中的试剂修复DNA损伤和片段末端。将SMRTbell发夹接头连接到修复的末端,然后使用AMPure PB珠(PacBio, CA, USA)进行文库浓缩和纯化。为了获得用于测序的大插入SMRTbell库,使用BluePippin系统选择大于15 kb的SMRTbell模板(SageScience, MA, USA)。测序由Novogene(北京,中国)公司使用PacBio Sequel II平台进行。随后,CCS软件(https://github.com/PacificBiosciences/ccs)用于生产质量在Q20以上的高精度HiFi读数,标准设置为Min passes = 3, Min RQ = 0.99(表1).使用cutadapt (v2.10)检查了HiFi读取中的SMRTbell适配器污染25,要求与适配器序列至少有15 bp的重叠(错误率= 0.1)。我们发现1919,461个读取中只有284个包含适配器,并且被适配器污染的读取被过滤掉了。最后,我们保留了29.26 Gb的HiFi数据,读取长度的最长长度、平均长度和N50分别为39.74 kb、15.24 kb和15.34 kb2),分别。Novogene (Beijing, China)使用Illumina NovaSeq 6000平台对从鱼鳍中提取的DNA进行测序,生成19.79 Gb原始配对端reads,读取长度为150 bp。

表1不同类型测序reads的统计数据。
表2 contig级和脚手架级的组装统计数据。

根据制造商的说明,使用TRIzol试剂(Invitrogen, MA, USA)从一名男性和一名女性的肝脏、肌肉、睾丸和卵巢组织中提取总RNA,然后以等摩尔浓度聚集用于RNA测序。用寡聚(dT)珠筛选总RNA,加入裂解缓冲液将总RNA裂解成短片段。这些短片段用随机六聚体引物合成第一链cDNA,然后合成第二链cDNA。使用AMPure XP珠纯化双链cDNA,使用EB缓冲液进行末端修复和a尾。对构建的RNA文库进行定量和稀释,并使用Agilent 2100生物分析仪系统(Agilent Technologies, CA, USA)评估插入物的大小。qPCR法准确定量文库有效浓度。使用Illumina NovaSeq 6000平台(Novogene, Beijing, China)对RNA文库进行测序,共获得17.04 Gb的配对端原始reads, Q30为93.67%(表3)1).

Hi-C数据来自一名男性的肝组织样本Nibea coibor.Hi-C库是按照Belton所描述的方案使用肝组织构建的26,做了一些修改。简而言之,将组织研磨,然后与4%的甲醛溶液交联。将核重悬于NEB缓冲液中,用稀SDS增溶,用4切酶MboI(400单位)进行酶切。用苯酚-氯仿萃取纯化DNA。利用Illumina NovaSeq 6000平台对构建的文库进行配对端测序。对排序后的原始数据进行过滤,得到总共88.96 Gb的干净数据(表1), Q20 = 96.74%, Q30 = 91.82%,用于辅助染色体组装。

组装和基因组质量评估

使用Hifiasm (v0.13.0-R307)的默认参数组装基因组22.我们使用没有附加数据(如父代数据)的HiFi读取来生成主组装图。我们预先计算了重叠,并从修正后的读取中重新执行重叠,用Hifiasm清除了haplotig重复,并进行了三轮错误修正。生成314个contigs,大小为627.60 Mb。最大contig大小为23.26 Mb,最大N50为10.66 Mb2),分别。

榨汁机27(v1.6)结合3D-DNA28(v180419)用于脚手架。首先,HiCUP29(v0.8.1)对Hi-C数据进行处理。BWA30.(v0.7.17-r1188)用于contig水平基因组的索引,然后使用Juicer创建限制性内切酶切割位点。利用Juicer (v1.6)对处理后的Hi-C数据进行进一步分析和处理。简而言之,我们设置了限制性内切类型(S)、参考基因组文件(Z)、限制性内切酶切割位点文件(Y)和染色体大小文件(P)。利用3D-DNA的run- asm -流水线.sh脚本构建参考基因组草图,并使用3D-DNA生成组装热图(图2)。2).Juicerbox31(v1.11.08)用于手动纠正装配错误(主要是易位错误),最终我们解决了24条染色体(图。3.).3D-DNA的run-ASM-pipeline-post-review.sh脚本28再次使用Juicerbox对修改后的文件输出结果进行修正,得到“FINAL”装配,共230个支架。支架最大尺寸为31.60 Mb, N50最大尺寸为26.22 Mb2),分别。

图2
图2

基因组组装、注释和系统发育的工作流程。

图3
图3

的全基因组Hi-C热图Nibea coibor.蓝色方块代表染色体蓝色方块内的绿色小方块代表染色体的contigs。灰色区域所包含的蓝色方块是弹片。

此外,基于脊椎动物端粒序列信息检测组装基因组中端粒重复序列的分布32由端粒酶资料库提供(http://telomerase.asu.edu/sequences_telomere.html).结果显示,24条染色体均含有端粒重复序列,即重复序列' TTAGGG '及其反向补体' CCCTAA ',其中14条染色体含有大量的重复序列,从14到1365不等(补充图)。1).

基因组大小和完整性估计

水母33(v2.3.0)通过设置k-mer参数为19、23、27和31来计数k-mer(表2.3.0)3.和补充图。2),并利用高覆盖短读得到相应的频率分布。的估计基因组大小Nibea coibor从611.85 Mb(19个月)到633.88 Mb(23个月)3.,补充图。2).

表3利用水母计数估计基因组大小。

基准通用单副本正交镜(BUSCO)34(v5.1.2)还用于评估actinopteryGIi_ODb10数据库的基因组完整性(https://busco-data.ezlab.org).共鉴定出3,640个BUSCO基因,其中完整基因3,600个,单拷贝基因3,552个,多拷贝基因48个,缺失基因29个,分别占全基因组的98.9%、97.6%、1.3%和0.3%(表4).此外,墨丘利35使用HiFi和Illumina reads来评估基因组的QV值和完整性。结果,使用HiFi和Illumina短读,基因组的完整性达到97.8%。用HiFi和Illumina k-mers估计qv分别为61.9和46.6。用merquery生成的k-mer谱图显示,在我们的基因组组装中没有异常的虚假重复,并且k-mer只出现在组装中,而不出现在测序reads中(意味着组装中的碱基错误),是微不足道的(补充图。3.

表4 BUSCO评价结果。

重复‐内容识别和注释

RepbaseTE文库使用RepeatMasker程序检测染色体尺度基因组组装中的重复序列36(v4.0.6)和RepeatModeler37(v1.0.9)用于构造从头重复库。结果显示,重复序列为11.49 Mb,占组装基因组的18.31%。在重复序列元件中,短点缀核元件(sin)占基因组大小的0.58%,长点缀核元件(LINEs)占基因组大小的1.79%。长端重复序列(lts)和DNA元件分别占1.37%和3.11%。小RNA含量为0.46%,卫星和简单重复序列分别占0.15%和2.72%。

综合策略:从头开始采用转录证据和基于蛋白质同源性的基因预测方法进行基因注释。汇集的RNAseq清洁数据通过两种方式进行组装,即依赖于参考基因组的转录本组装和使用Trinity软件进行de novo组装38(v2.4.0)和开放阅读帧(orf)使用PASA进行识别39(v2.1.0)。奥古斯都40(v3.2.3)执行从头开始利用已知的斑马鱼基因和RNAseq转录本进行基因预测。经过两轮模型训练,得到最优参数。Tblastn41被用来排列蛋白质序列Nibea coibor还有其他9个物种,包括Cynoglossus semilaevis, Danio rerio(斑马鱼),Takifugu rubripe(河豚),Dicentrarchus labrax(欧洲鲈鱼),Gasterosteus aculeatus(三个量有脊柱的棘鱼), Larimichthys鳄鱼(大黄鱼),晚期钙化动物,尼罗岩石层而且Oryzias latipes(medaka),用于基于同源的基因预测。天灾42(v2.2.0)用于精确定位对齐序列的剪接位点和外显子。剔除编码区域小于150bp的基因,利用证据建模器(Evidence modeler, EVM)对三种基因预测模型的结果进行加权和评价。43(v1.1.1)以产生包含编码区域和可选剪接位点的全面可靠的基因结构。所有预测基因均与NCBI非冗余蛋白(nr)数据库进行比对,并使用blastp进行功能注释44.最终,预测了21433个基因,包括14633个非选择性剪接基因和6800个选择性剪接基因。在这些基因中,有19859个基因在NCBI nr数据库中进行了注释。

系统发育分析

13个物种的编码序列(CDSs),包括智人,波达西muralis, Gallus,眼细尾鱼,大鲵,鳄尾鱼,斑纹剑鱼,黑绿四齿兽,尼罗裂唇鱼,墨西哥稻谷,针叶棘齿鱼,白花尼贝鱼45而且Collichthys光泽的46,是从Ensmbl或NCBI数据库中检索的。提取各种各基因的最长CDS,利用OrthoFinder进行同源性分析47(v2.5.4)使用默认设置。14个物种共鉴定出333,401个基因,其中同源单拷贝基因1,876个。使用Muscle的-align参数对这些同源单拷贝基因进行比较48(v5.1)。Gblock4950(v0.19b)使用参数“-b4 = 5 -b5 = h -t = d -e = 0.2”提取比较结果中的保守序列,Seqkit51(v2.2.0)用于合并结果。通过MEGA11构建系统发育树52与智人有关作为外群,和时间树53以鸡和蜥蜴的分化时间(280 MYA)为基础,估计其他脊椎动物的分化时间。利用iTOL对进化树进行可视化54https://itol.embl.de/).根据我们的系统发育树(图。4),我们观察到Nibea coibor进化上更接近吗Nibea albiflora,也属于Nibea,散度时间为16.9 MYA。此外,这两个物种有一个共同的祖先Larimichthys稚鱼而且Collichthys光泽的,属于同一科Sciaenidae,两个分支的分化时间为26.4 MYA。

图4
图4

的系统发育分析Nibea coibor和其他13个物种。分支上的绿色数字表示每个位点核苷酸取代的平均数量(分支的长度不能准确代表取代率),节点附近的黑色数字表示分化时间(百万年前,MYA),括号内的蓝色数字是bootstrap值。

线粒体的完整序列(GenBank ID: CM041792.1)Nibea coibor包含在我们的程序集中。线粒体包含13个蛋白质编码基因,22个tRNA和2个rRNA基因,用MITOS Web Server注释55http://mitos.bioinf.uni-leipzig.de/index.py).在上述13个物种中,线粒体CDSs最长Nibea coibor使用Clustal Omega (v1.2.4)进行比较56.利用IQ-TREE (v1.6.12)构建基于线粒体序列的系统发育树5758他认为Nibea coibor更接近于Nibea albifloraLarimichthys稚鱼而且Collichthys光泽的(补充图。4).

数据记录

Illumina基因组测序数据存放在NCBI SRR19088065的SRA中59

基因组PacBio测序数据存放在NCBI SRR19088064的SRA中60

转录组测序数据存放在NCBI SRR19088063的SRA中61

Hi-C测序数据存放在NCBI SRR19088062的SRA中62

最后的染色体组装存放在NCBI JALLKU000000000的GenBank中63

基因组注释文件可在figshare中获取64

技术验证

使用琼脂糖凝胶电泳检查提取的DNA对端测序,并使用量子位荧光仪(Thermo Fisher Scientific, USA)测定DNA浓度。

用琼脂糖凝胶电泳检测PacBio测序提取的DNA,主条带大于30 kb。DNA浓度使用量子位荧光仪(美国赛默飞世尔科学公司)测定,在260/280条件下,使用NanoDrop ND-1000分光光度计(美国LabTech公司)测定吸光度为1.802。

对于RNA-seq,使用TRIzol试剂(Invitrogen, MA, USA)按照制造商的方案提取总RNA。RNA完整性使用Agilent 2100生物分析仪(Agilent Technologies, CA, USA)进行评估。我们研究中使用的样本的RNA完整性数(RIN)大于8.5。

我们生成了89.62 Gb的Hi-C raw reads,有效率为99.26%。Hi-C reads的Q20和Q30基础质量分别为96.74%和91.82%。