基因外显子组测序技术手册

2022-02-21 12:13:43 来源：南京皮肤科咨询医生

内含子第三组的DNA序列仅仅占到仅仅有测序DNA序列的1%左右，但大多仅仅与胃癌症相关的相异地处内含子一区。通过内含子第三组脱氧核糖核酸可鉴定将近8万个相异，仅仅有测序脱氧核糖核酸可鉴定300万个相异，因此，与仅仅有测序脱氧核糖核酸来得，内含子第三组脱氧核糖核酸不仅仅费用很低，信息说明了也更为简单。内含子第三组脱氧核糖核酸电子技术以其经济、有效地的占有优势普遍应用领域于孟德尔遗传DNA病、相似肉瘤及复杂胃癌症的研究课题，并于2010年被Science华尔街日报誉为十大突破之一。

一、电子技术简介

随着社亦会生活准确度的提低，人类生活品质问题也越来越多的受到社亦会各界的关注。传统的遗传DNA胃癌症研究课题方式上是引入显带系统性、核型系统性、FISH、遗传DNA标示出、PCR-DNA脱氧核糖核酸等传统飞行测试新方法来四处寻找与胃癌症相关的DNA相异，这些新方法各有各的特征，但都发挥作用重复性大、可用性低、分辨率低等一系列的限制。新一代低通量脱氧核糖核酸电子技术的用到，为遗传DNA胃癌症的研究课题提供了仅仅有新的简而言之。

2009年，测序定向捉到工具的用到使内含子第三组脱氧核糖核酸成可能。2009年9月，篇关于内含子第三组脱氧核糖核酸的仅仅学模型证明文章于Nature华尔街日报上刊登。来自华盛顿大学的JayShendure通过对四名Freeman-Sheldon肉瘤病变的内含子第三组脱氧核糖核酸，四处寻找了已知的病原体DNAMYH3。随后，该团队将这种电子技术应用领域于卡特肉瘤的研究课题，通过对病变编码一区DNA序列的捉到及深脱氧核糖核酸，鉴定出单个候选DNADHODH，并经Sanger脱氧核糖核酸证明其他病变中的发挥作用该DNA的特异性。

二、电子技术占有优势

• 直接对蛋白编码DNA序列完成DNA序列量度，找寻受到影响蛋白形态的相异。• 低深脱氧核糖核酸，可四处寻找罕见相异及频率少于1%的相似相异。• 针对内含子第三组一地区脱氧核糖核酸，将近占到测序的1%，有效地增大费用、周期、重复性。

三、应用领域简而言之

胃癌症

遗传DNA方式上

病原体DNA

Freeman-Sheldon肉瘤

MYH3

Kabuki 肉瘤

MLL2

Schinzel-Giedion 肉瘤

SETBP1

Sensenbrenner 肉瘤

WDR35

Fowler 肉瘤

FLVCR2

Perrault 肉瘤

HSD17B4

Hajdu-Cheney 肉瘤

NOTCH2

成骨不仅仅有

SERPINF1

卡特肉瘤

DHODH

Brown-Vialetto-van Laere 肉瘤

C20orf54

噬腺苷脂酶过多智力鲁莽肉瘤

PIGV

堂兄弟普遍性β-脂肪细胞过少噬症

ANGPTL3

色素普遍性视网膜炎

DHDDS

非肉瘤普遍性眼疾

GPSM2

原发普遍性淋巴普遍性发炎

GJC2

肌萎缩普遍性侧索硬化

VCP

非肉瘤的智力鲁莽

TECR

Van Den Ende-Gupta 肉瘤

SCARF2

自身免疫普遍性淋巴的第三组织增生症(ALPS)

FADD

脑干共济失调

TGM6

逆向普遍性痤疮

NCSTN

四、方案设计

来得传统脱氧核糖核酸，内含子脱氧核糖核酸并能迅速的取得所有内含子一地区的遗传DNA反馈，在随之改善可用性的同时显著增大了研究课题成本高；来得仅仅有测序脱氧核糖核酸，内含子脱氧核糖核酸并能在较短测试周期、减少信息系统性量及测试投身于的基础上有针对普遍性的获取部份仅仅有测序脱氧核糖核酸所能获取的反馈。基于内含子第三组脱氧核糖核酸更佳普遍性价比，该新方法在此之前在当今从未被普遍的应用领域于遗传DNA病和肝胃癌研究课题中的。

1. 单DNA胃癌症研究课题方案

首先必需按照胃癌症表现型对后继者成员完成严密筛查，明确其染病情况并完成该胃癌症研究课题的时代背景调查。在找寻该胃癌症从未有一些研究课题时代背景和相关的病原体DNA报道，可通过传统PCR脱氧核糖核酸新方法对已知的胃癌症相关相异完成证明和初筛；确认所研究课题的结果显示中的未四处寻找相关的DNA相异，那么可以挑选一个或仅仅个相近胃癌症后继者的核心成员成员完成内含子第三组脱氧核糖核酸。每个后继者中的的染病幼体选取3-5个结果显示，正常幼体选取1-2名作为对照完成研究课题。按照胃癌症仅仅学新方法(AD，AR等)及材料的后继者反馈对脱氧核糖核酸获取的结果完成系统性，缩小候选相异的一地区内，经过多种注释、筛选后漂白丢出对功能性无受到影响的相异及公共检索中的的罕见相异，日后可用传统PCR脱氧核糖核酸完成结果显示扩大化证明及相关的功能性研究课题，终确认胃癌症相关相异。

单DNA遗传DNA病研究课题简而言之：

a．后继者图：

b．系统性简而言之：1). 隐普遍性纯合特异性病原体：两个病变共享相近的纯合特异性，父母为杂合乙型肝炎。2). 复合杂合特异性病原体：两个病变具备相近的特异性，即在一个DNA上有两个各不相同的杂合相异，而父母分别为这两个杂合特异性的乙型肝炎。3). 显普遍性方式上（新生特异性）：找两个病变共有的杂合特异性，而父母不隐含该特异性。

c．系统性结果示意：

若结果显示为弥漫结果显示，由于结果显示在在没有噬缘关系，遗传DNA时代背景相差较大，脱氧核糖核酸获取的结果也不易系统性。为了更为准确的获取有价绝对值的结果，可用弥漫结果显示完成内含子第三组脱氧核糖核酸要求的结果显示仅仅目比后继者结果显示要多一些。一般建言至少花钱30个染病幼体结果显示以上的平行脱氧核糖核酸系统性。对大量染病幼体的脱氧核糖核酸信息完成多结果显示系统性，从而确认候选胃癌症相关相异，日后用传统PCR脱氧核糖核酸在其他的相近胃癌症染病幼体和正常人群中的花钱进一步证明。

2. 复杂胃癌症及肝胃癌的研究课题方案

对于复杂胃癌症，首先应该选择具备遗传DNA普遍性较低的病例作为研究课题对象，一般必需受限制以下几个特征：a.与胃癌症相关；b. 准确度遗传DNA；c. 在病变中的表现较年前，表现型一致，低外显率；d.胃癌症的得病机制相似。整体的研究课题简而言之一般是通过适量结果显示的内含子脱氧核糖核酸(染病和生活品质幼体各50例)四处寻找与胃癌症准确度关联的低频特异性，然后根据这一结果选用合适的笔记本电脑，在大结果显示里完成大规模证明。从而取得仅仅值更低的胃癌症相关相异核糖体。接着可以针对这些核糖体完成生物科学功能性研究课题，从而获取有象征意义的结果，开发出胃癌症诊断及疗法的相关其产品等。

在各种环境因素的抑制作用下，MS某些线粒体染色体上起因的相异摧毁或改变了某些为重要的生物科学步骤，线粒体可能亦会因此异常增生而转变为细胞。由于细胞具备异质普遍性，同一块的第三组织里可能含有各不相同初期的细胞以及正常线粒体，因此它的DNA相异情况相对其遗传DNA胃癌症来说更为复杂。对于的第三组织的内含子第三组脱氧核糖核酸研究课题，其关键的步骤在于结果显示的选取。在此之前罕见的情况是分别取同一肝胃癌病变的胃癌的第三组织和胃癌旁的第三组织完成比较，结果显示仅仅目建言至少20对以上。脱氧核糖核酸后成对的结果显示完成系统性后日后完成各不相同病变在在的多结果显示系统性，更进一步来发掘相关的DNA相异。由于产生的原因有仅仅DNA特异性，DNA表多达准确度相异，表观遗传DNA相异等多个方面，在运用NGS研究课题的时候，通常亦会可用多种飞行测试新方法相结合的新方法，例如特异性第三组脱氧核糖核酸、仅仅有测序脱氧核糖核酸、甲基化脱氧核糖核酸等，相互完成窥见，多信息整合系统性可以进一步的提低信息的可靠普遍性，改善科研文章档次。

{nextpage}

五、捉到网络服务

在此之前主流的捉到网络服务，各网络服务的特征如下。

捉到网络服务

Illumina TruSeq Exome Enrichment Kit

Roche SeqCap EZ Human Exome Library

Agilent SureSelect Human All Exon

捉到量

62M

64M

51M

捉到一地区

内含子及旁翼一区，

部份UTR及miRNA

内含子一区及miRNA

内含子一区

样品

95 mer DNA

90-105 mer DNA

120 mer RNA

样品生产量

340,427

2,100,000

655,872

对近似于检索的覆盖率

97.2% CCDS

96.4% RefSeq

93.2% Gencode

77.6% miRBase

99.8% CCDS

98.4% RefSeq

96.7% Gencode

98.67% miRBase

1.22% of human genomic regions，

> 700 human miRNAs，

> 300 additional human non-coding RNAs

六、这两项流程

1、结果显示证明

用于建库的DNA材料规格为材料电导率等于60ng/μl，体积等于20μl，OD260/OD280为1.7-2.0。通过以下三种方式则完成结果显示证明：

• 引入电子显微镜定量的新方法对DNA材料完成定量；• NanoDrop证明OD260/OD280；• 凝胶电泳证明DNA的状态，是包含酶、RNA污染及是否是发挥作用DNA降解。 2、建库

应用领域TruSeq DNA Sample Prep Kits完成文库制备，起始DNA量为1.2 μg。

3、捉到

以Illumina的捉到网络服务为例，应用领域TruSeq Exome Enrichment Kit捉到内含子第三组及旁翼一区，部份UTR及miRNA，总捉到一地区内为62M。

4、脱氧核糖核酸

捉到获取的DNADNA序列可于Illumina的任一脱氧核糖核酸仪中的完成脱氧核糖核酸，以HiSeq2000为例，每run可调试两张flowcell，每个flowcell有仅仅8个lane，100PE方式上下每run调试将近11天，信息一般而言为600G。捉到材料经桥式PCR后，置于flowcell中的完成脱氧核糖核酸，内含子第三组结果显示一般建言脱氧核糖核酸125X，便足够完成遗传DNA胃癌症系统性，如结果显示可根据情况适度提高脱氧核糖核酸深。

{nextpage}

5、质控

严密可用IlluminaImpreza试剂，遵循Illumina GenomeNetwork管理，是Illumina仅仅有球次于脱氧核糖核酸恒星质量的象征性。少等于99% 残基准确度多达Q20，前提等于85%残基准确度多达Q30，少clean data占到raw data 90% 以上。对于内含子第三组这两项，将近90%的内含子一地区覆盖度多达致10×以上，前提次于的脱氧核糖核酸皆一普遍性。

a．原始信息

HiSeq 2000网络服务一般而言的原始信息为Fastq编解码器，以下是对该编解码器的详细说明：

@HWI-ST1203:231:C1NDLACXX:7:1101:1837:2139 1:N:0:AGTCAATTCCACTTAAAAATACAAGAGCACAAATCCACATTTATTTATTGATTTTTCGTTAGTTTAAATCCTTGAGGGGTACAGCATCACTCGGATTCTGTGTCCAA+CCCFDFFFHHHHHJJJJIJJJJJJJJIJIJIJFHJJGJEIEIGIIJIJIIGIDGGIIHI@HHEHIIIIIJ=CHABBDFFFFEEDEEDBBDDCDDCCDDCDC

对于以上FastqDNA序列，行以@开头，后面是read的ID以及其他反馈；第二行象征性read的DNA序列；第三行一般以“+”表示；第四行象征性read的恒星质量反馈，与第二行的残基DNA序列相对应。其中的，为了便于集成电路完成存储，恒星质量绝对值以字符串来表示，每个字符串所象征性的ASCII码减去33即为该残基对应的恒星质量绝对值。根据可视的公式（Q=-10lgP），即可计算每个残基被测错的概率，其中的Q20象征性残基被测错的概率为1%，Q30象征性残基被测错的概率为1‰。

将以上FastqDNA序列的恒星质量反馈转换成可视的恒星质量绝对值，结果如下。在该read中的，只有一个残基的恒星质量绝对值为28，其余残基的恒星质量绝对值皆等于30。34，34，34，37，35，37，37，37，39，39，39，39，39，41，41，41，41，40，41，41，41，41，41，41，41，41，40，41，40，41，40，41，37，39，41，41，38，41，36，40，36，40，38，40，40，41，40，41，40，40，38，40，35，38，38，40，40，39，40，31，39，39，36，39，40，40，40，40，40，41，28，34，39，32，33，33，35，37，37，37，37，36，36，35，36，36，35，33，33，35，35，34，35，35，34，34，35，35，34，35，34.

b．恒星质量检验

残基恒星质量评分

上图是DNA脱氧核糖核酸获取read的恒星质量绝对值结果，其中的几乎所有残基的恒星质量绝对值在20以上，90%以上残基的恒星质量绝对值在30以上。

脱氧核糖核酸深分布

虽然内含子第三组脱氧核糖核酸的整体深一般都等于100X，但由于脱氧核糖核酸步骤中的发挥作用一定的DNA序列偏向普遍性，部份内含子一地区的脱氧核糖核酸覆盖度很低。在完成反馈系统性时，通常只考虑脱氧核糖核酸深很低10X的内含子一地区，以便提低系统性结果的可靠普遍性。脱氧核糖核酸结果中的，85%-95%的内含子一地区脱氧核糖核酸深等于10X，前提较低的脱氧核糖核酸皆一普遍性。

c．结果展示

全名参仅仅

统计学结果

中的文说明

Sample Name

Example

结果显示名

Total reads

100,256,834

Reads仅仅目

Total yield (bp)

10,125,940,234

信息量

Read length (bp)

101.0

读长

Target regions (bp)

62,085,286

要能一地区不等

Average throughput depth of target regions

163.1

少脱氧核糖核酸深

Initial mappable reads (mapped to human genome)

100,097,762

可鉴定DNA序列仅仅

% Initial mappable reads (out of total reads)

99.8%

可鉴定DNA序列%-

Non-redundant reads (de-duplicated by Picard tools)

82,401,028

非冗余DNA序列仅仅

% Non-redundant reads (out of initial mappable reads)

82.3%

非冗余DNA序列%-

Non-redundant unique reads (uniquely mapped to human genome)

73,028,083

非冗余也就是说鉴定DNA序列仅仅

% Non-redundant unique reads (out of non-redundant reads)

88.6%

非冗余也就是说鉴定DNA序列%-

On-target reads (mapped to target regions)

50,349,303

要能一地区DNA序列仅仅

% On-target reads (out of non-redundant unique reads)

68.9%

要能一地区DNA序列%-

% Coverage of target regions (more than 1X)

95.1%

脱氧核糖核酸深等于1×的覆盖度

Number of on-target genotypes (more than 1X)

59,032,909

脱氧核糖核酸深等于1×的一地区

% Coverage of target regions (more than 10X)

91.6%

脱氧核糖核酸深等于10×的覆盖度

Number of on-target genotypes (more than 10X)

56,865,579

脱氧核糖核酸深等于10×的一地区

Mean read depth of target regions

65.4

要能一地区少脱氧核糖核酸深

Number of SNPs

78,241

SNP仅仅目

Number of coding SNPs

20,593

编码一区SNP仅仅目

Number of synonymous SNPs

10,654

同义SNP仅仅目

Number of nonsynonymous SNPs

9,391

非同义SNP仅仅目

Number of Indels

8,447

InDel仅仅目

Number of coding Indels

411

编码一区InDel仅仅目

6、反馈系统性

a. 确认DNA序列，原始信息漂白及统计学：通过FastQC， FastX-toolkit等软件对脱氧核糖核酸恒星质量完成检验，替换成低恒星质量reads(等于5个残基恒星质量少于Q20)，剩余的信息作为clean data完成系统性，少等于99%的残基恒星质量很低Q20，等于85%的残基恒星质量很低Q30。b. Mapping：通过bwa软件将reads map到规格参考测序上(UCSC hg19)，替换成能够map到参考测序和多为重map的reads后完成后续系统性，大将近有99.5%的reads能完成下一轮系统性。c. 替换成完仅仅有一致reads(duplicate reads)：内含子捉到步骤中的含有PCR扩增步骤，亦会人为引入完仅仅有一致的DNA片段，由于这些DNADNA序列亦会对初期的系统性造成受到影响，故要可用PICARD软件替换成信息中的的duplicate reads，各不相同的捉到网络服务中的这类DNA序列所占到的%-不一样，illumina捉到网络服务中的的duplicatereads仅仅目将近占到总信息的15-20%，Agilent网络服务中的的这一仅仅绝对值将近为1-3%。d. 对要能一地区内的DNA序列完成相异已确认：可用Samtools对脱氧核糖核酸结果与参考测序完成鉴定，找寻材料中的发挥作用的相异，有仅仅SNV，InDel等，并对其完成注释及功能性预测，有仅仅dbSNP、1000G检索，SIFT，Polyphen-2，GERP等软件。e. 多结果显示系统性：根据研究课题细节的各不相同，将多个结果显示分为各不相同的第三组别，对其中的的相异反馈完成概述，统计学相异在群体内用到的频率，左边等相关反馈，通过KEGG等信号移动式注释系统性其与胃癌症之在在的关联。f. 年度报告提交：有仅仅材料证明与建库年度报告(pdf编解码器)、脱氧核糖核酸结果年度报告(pdf编解码器)、单结果显示相异已确认年度报告(excel编解码器)、多结果显示概述系统性年度报告(excel编解码器)、原始信息(fastq、BAM等编解码器)和刊登文章所需的各类图表。

七、内含子第三组脱氧核糖核酸相关该词

内含子第三组脱氧核糖核酸：是称之为运用DNA序列捉到电子技术将仅仅有测序内含子一地区DNA抓取并富集后完成低通量脱氧核糖核酸的测序系统性新方法。内含子脱氧核糖核酸比起测序为重脱氧核糖核酸成本高很低，对研究课题已知DNA的SNP、 InDel 等具备较大的占有优势。

脱氧核糖核酸深：脱氧核糖核酸获取的总残基仅仅与待测一地区不等的比绝对值。如可用Illumina TruSeq Exome Enrichment Kit，该试剂盒的捉到一地区内为62M，脱氧核糖核酸获取620M信息量时，脱氧核糖核酸深为620/62=10×。

覆盖度：称之为脱氧核糖核酸取得的DNA序列占到整个待测一地区的%-。如果内含子第三组脱氧核糖核酸的覆盖度是98%，则表示仍有2%的DNA序列一地区是没有通过脱氧核糖核酸取得的。

Read：就是读长，就是低通量脱氧核糖核酸时一个中在在体所能计算出来的残基仅仅。

SNP（single nucleotide polymorphism）：单胺基酸多态普遍性，幼体在在测序DNADNA序列同一左边单个胺基酸相异(替代、弹出或缺失)所引起的多态普遍性；各不相同物种幼体测序 DNA DNA序列同一左边上的单个胺基酸发挥作用相差的物理现象。 InDel（Insertion/Deletion）：弹出/缺失，是称之为两种杂交在仅仅有测序中的的差异，相对另一个杂交而言，其中的一个杂交的测序中的有一定生产量的胺基酸弹出或缺失。 CNV（copy number variation）：测序拷贝仅仅相异，是测序相异的一种形式，通常使测序中的原野段的DNA成型非正常的拷贝生产量。 SV（structurevariation）：测序形态相异，染色体形态相异是称之为在染色体上起因了原野段的相异。主要有仅仅染色体原野段的弹出和缺失（引起 CNV的推移），染色体之下的某块一地区起因移位镜像、翻转颠换、易位、两条染色体之在在起因为重第三组（inter-chromosometrans-location）等。

TAG：

上一页：程喜平：不能清领症状消失不代表清领愈
下一页：【盘点】特应性皮炎近来重要研究进展汇总