1.Whole Exome Sequencing, WES

全基因组外显子测序是利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。在人类基因中大约有180,000外显子，占人类基因组的1%，约30MB，却包含~85%的已知致病变异。对于试图阐明6,800多种罕见疾病致病基因的遗传学研究人员而言，外显子组测序能识别常见的单核苷酸变异(SNV)、拷贝数变异(CNV)、小的插入和缺失(indels)以及罕见的新生突变，可用于解释孟德尔疾病和复杂疾病的遗传可能性。癌症研究人员可以利用外显子组测序检测倾向于让细胞癌变的生殖细胞遗传变异。外显子组测序的目标是识别在人类癌症发病过程中重要的编码变异和突变。相比于全基因组重测序，外显子组测序更加经济、高效，更适用于大样本量疾病及癌症样本分析。

2. 基因外显子组测序技术手册

2.1 技术简介

外显子组的序列仅占全基因组序列的1%左右，但大多数与疾病相关的变异位于外显子区。通过外显子组测序可鉴定约8万个变异，全基因组测序可鉴定300万个变异，因此，与全基因组测序相比，外显子组测序不仅费用较低，数据阐释也更为简单。外显子组测序技术以其经济、有效的优势广泛应用于孟德尔遗传病、罕见综合征及复杂疾病的研究，并于2010年被Science杂志评为十大突破之一。

2.2 技术优势

直接对蛋白编码序列进行序列测定，找出影响蛋白结构的变异。
高深度测序，可发现常见变异及频率低于1%的罕见变异。
针对外显子组区域测序，约占基因组的1%，有效降低费用、周期、工作量。

2.3 方案设计

相比传统测序，外显子测序能够迅速的获得所有外显子区域的遗传信息，在大幅提升效率的同时显著降低了研究成本；相比全基因组测序，外显子测序能够在缩短实验周期、减少数据分析量及实验投入的基础上有针对性的得到大部分全基因组测序所能得到的信息。基于外显子组测序良好性价比，该方法目前在国际上已经被广泛的应用于遗传病和癌症研究中。

2.3.1 单基因疾病研究方案

首先需要按照疾病表型对家系成员进行严格筛查，明确其患病情况并进行该疾病研究的背景调查。在找出该疾病已经有一些研究背景和相关的致病基因报道，可通过传统PCR测序方法对已知的疾病相关变异进行验证和初筛；确认所研究的样本中未发现相关的基因变异，那么可以挑选一个或数个相同疾病家系的核心成员成员进行外显子组测序。每个家系中的患病个体选取3-5个样本，正常个体选取1-2名作为对照进行研究。按照疾病模型(AD，AR等)及样品的家系信息对测序得到的结果进行分析，缩小候选变异的范围，经过多种注释、筛选后过滤掉对功能无影响的变异及公共数据库中的常见变异，再使用传统PCR测序进行样本扩大化验证及相关的功能研究，最终确定疾病相关变异。

若样本为散发样本，由于样本间没有血缘关系，遗传背景相差较大，测序得到的结果也较难分析。为了更为准确的得到有价值的结果，使用散发样本进行外显子组测序要求的样本数目比家系样本要多一些。一般建议至少做30个患病个体样本以上的平行测序分析。对大量患病个体的测序数据进行多样本分析，从而确定候选疾病相关变异，再用传统PCR测序在其他的相同疾病患病个体和正常人群中做进一步验证。

2.3.1.1 单基因遗传病研究举例

2.3.1.1.1 分析思路

隐性纯合突变致病：两个患者共享相同的纯合突变，父母为杂合携带者。
复合杂合突变致病：两个患者具有相同的突变，即在一个基因内有两个不同的杂合变异，而父母分别为这两个杂合突变的携带者。
显性模式（新生突变）：找两个患者共有的杂合突变，而父母不带有该突变。

2.3.1.1.2 分析结果示意

外显子区域筛选 -> 非同义突变筛选 -> 数据库筛选 -> 疾病模式筛选

2.3.1.2 复杂疾病及癌症的研究方案

对于复杂疾病，首先应该选择具有遗传性较高的病例作为研究对象，一般需要满足以下几个特点：与疾病相关；高度遗传；在患者中表现较早，表型一致，高外显率；疾病的发病机制相似。整体的研究思路一般是通过适量样本的外显子测序(患病和健康个体各50例)找到与疾病高度关联的低频突变，然后根据这一结果订制合适的芯片，在大样本里进行大规模验证。从而获得精确度更高的疾病相关变异位点。接着可以针对这些位点进行生物学功能研究，从而得到有意义的结果，开发出疾病诊断及治疗的相关产品等。

在各种环境因素的作用下，机体某些体细胞染色体上发生的变异破坏或改变了某些重要的生物学过程，体细胞可能会因此异常增生而转变为肿瘤细胞。由于肿瘤细胞具有异质性，同一块肿瘤组织里可能含有不同时期的肿瘤细胞以及正常体细胞，因此它的基因变异情况相对其遗传疾病来说更为复杂。对于肿瘤组织的外显子组测序研究，其最关键的步骤在于样本的选取。目前最常见的情况是分别取同一癌症患者的癌组织和癌旁组织进行比较，样本数目建议至少20对以上。测序后成对的样本进行分析后再进行不同病人间的多样本分析，以此来发掘肿瘤相关的基因变异。由于肿瘤产生的原因包括基因突变，基因表达水平变异，表观遗传变异等多个方面，在利用NGS研究肿瘤的时候，通常会使用多种试验方法相结合的方法，例如转录组测序、全基因组测序、甲基化测序等，相互进行印证，多数据整合分析可以进一步的提高数据的可靠性，提升科研文章档次。

2.4 信息分析

2.4.1 QC

确定序列，原始数据过滤及统计：通过FastQC，FastX-toolkit等软件对测序质量进行评估，去除低质量reads(大于5个碱基质量低于Q20)，剩余的数据作为clean data进行分析，平均大于99%的碱基质量高于Q20，大于85%的碱基质量高于Q30。

2.4.2 Mapping

通过bwa软件将reads map到标准参考基因组上(UCSC hg19)，去除无法map到参考基因组和多重map的reads后进行后续分析，大约有99.5%的reads能进行下一轮分析。

2.4.3 去除完全一致reads(duplicate reads)

外显子捕获过程中含有PCR扩增步骤，会人为引入完全一致的DNA片段，由于这些DNA序列会对后期的分析造成影响，故要使用PICARD软件去除数据中的 duplicate reads，不同的捕获平台中这类序列所占的比例不一样，illumina捕获平台中的duplicate reads数目约占总数据的15-20%，Agilent平台中的这一数值约为1-3%。

2.4.4 对目标区域内的序列进行变异检出

使用Samtools对测序结果与参考基因组进行比对，找出样品中存在的变异，包括SNV，InDel等，并对其进行注释及功能预测，包括dbSNP、1000G数据库，SIFT，Polyphen-2，GERP等软件。

2.4.5 多样本分析

根据研究内容的不同，将多个样本分为不同的组别，对其中的变异信息进行汇总，统计变异在群体内出现的频率，位置等相关信息，通过KEGG等信号通路注释分析其与疾病之间的关联。

2.4.6 报告提交

包括样品检测与建库报告(pdf格式)、测序结果报告(pdf格式)、单样本变异检出报告(excel格式)、多样本汇总分析报告(excel格式)、原始数据(fastq、BAM等格式)和发表文章所需的各类图表。

2.5 外显子组测序相关名词

2.5.1 外显子组测序

是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。外显子测序相对于基因组重测序成本较低，对研究已知基因的SNP、 InDel 等具有较大的优势。

2.5.2 测序深度

测序得到的总碱基数与待测区域大小的比值。如使用Illumina TruSeq Exome Enrichment Kit，该试剂盒的捕获范围为62M，测序得到620M数据量时，测序深度为620/62=10×。

2.5.3 覆盖度

指测序获得的序列占整个待测区域的比例。如果外显子组测序的覆盖度是98%，则表示仍有2%的序列区域是没有通过测序获得的。

2.5.4 Read

就是读长，就是高通量测序时一个反应所能测出的碱基数。

2.5.5 SNP（single nucleotide polymorphism）

单核苷酸多态性，个体间基因组DNA序列同一位置单个核苷酸变异(替代、插入或缺失)所引起的多态性；不同物种个体基因组 DNA 序列同一位置上的单个核苷酸存在差别的现象。

2.5.6 InDel（Insertion/Deletion）

插入/缺失，是指两种亲本在全基因组中的差异，相对另一个亲本而言，其中一个亲本的基因组中有一定数量的核苷酸插入或缺失。

2.5.7 CNV（copy number variation）

基因组拷贝数变异，是基因组变异的一种形式，通常使基因组中大片段的DNA形成非正常的拷贝数量。

2.5.8 SV（structure variation）

基因组结构变异，染色体结构变异是指在染色体上发生了大片段的变异。主要包括染色体大片段的插入和缺失（引起 CNV 的变化），染色体内部的某块区域发生重复复制、翻转颠换、易位、两条染色体之间发生重组（inter-chromosome trans-location）等。

3. 高通量测序领域常用名词解释大全

3.1 什么是高通量测序？

高通量测序技术（High-throughputsequencing，HTS）是对传统Sanger测序（称为一代测序技术）革命性的改变, 一次对几十万到几百万条核酸分子进行序列测定, 因此在有些文献中称其为下一代测序技术(next generation sequencing，NGS )足见其划时代的改变, 同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能, 所以又被称为深度测序(Deep sequencing)。

3.2 什么是基因组重测序（Genome Re-sequencing）

全基因组重测序是对基因组序列已知的个体进行基因组测序，并在个体或群体水平上进行差异性分析的方法。随着基因组测序成本的不断降低，人类疾病的致病突变研究由外显子区域扩大到全基因组范围。通过构建不同长度的插入片段文库和短序列、双末端测序相结合的策略进行高通量测序，实现在全基因组水平上检测疾病关联的常见、低频、甚至是罕见的突变位点，以及结构变异等，具有重大的科研和产业价值。

3.3 什么是de novo测序

de novo测序也称为从头测序：其不需要任何现有的序列资料就可以对某个物种进行测序，利用生物信息学分析手段对序列进行拼接，组装，从而获得该物种的基因组图谱。获得一个物种的全基因组序列是加快对此物种了解的重要捷径。随着新一代测序技术的飞速发展，基因组测序所需的成本和时间较传统技术都大大降低，大规模基因组测序渐入佳境，基因组学研究也迎来新的发展契机和革命性突破。利用新一代高通量、高效率测序技术以及强大的生物信息分析能力，可以高效、低成本地测定并分析所有生物的基因组序列。

3.4 什么是外显子测序（whole exon sequencing）

外显子组测序是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。外显子测序相对于基因组重测序成本较低，对研究已知基因的SNP、Indel等具有较大的优势，但无法研究基因组结构变异如染色体断裂重组等。

3.5 什么是mRNA测序（RNA-seq）

转录组学（transcriptomics）是在基因组学后新兴的一门学科，即研究特定细胞在某一功能状态下所能转录出来的所有RNA（包括mRNA和非编码RNA）的类型与拷贝数。Illumina提供的mRNA测序技术可在整个mRNA领域进行各种相关研究和新的发现。mRNA测序不对引物或探针进行设计，可自由提供关于转录的客观和权威信息。研究人员仅需要一次试验即可快速生成完整的poly-A尾的RNA完整序列信息，并分析基因表达、cSNP、全新的转录、全新异构体、剪接位点、等位基因特异性表达和罕见转录等最全面的转录组信息。简单的样品制备和数据分析软件支持在所有物种中的mRNA测序研究。

3.6 什么是small RNA测序

SmallRNA（micro RNAs、siRNAs和 pi RNAs）是生命活动重要的调控因子，在基因表达调控、生物个体发育、代谢及疾病的发生等生理过程中起着重要的作用。Illumina能够对细胞或者组织中的全部Small RNA进行深度测序及定量分析等研究。实验时首先将18-30 nt范围的Small RNA从总RNA中分离出来，两端分别加上特定接头后体外反转录做成cDNA再做进一步处理后，利用测序仪对DNA片段进行单向末端直接测序。通过Illumina对Small RNA大规模测序分析，可以从中获得物种全基因组水平的miRNA图谱，实现包括新miRNA分子的挖掘，其作用靶基因的预测和鉴定、样品间差异表达分析、miRNAs聚类和表达谱分析等科学应用。

3.7 什么是miRNA测序

成熟的microRNA（miRNA）是17~24nt的单链非编码RNA分子，通过与mRNA相互作用影响目标mRNA的稳定性及翻译，最终诱导基因沉默，调控着基因表达、细胞生长、发育等生物学过程。基于第二代测序技术的microRNA测序，可以一次性获得数百万条microRNA序列，能够快速鉴定出不同组织、不同发育阶段、不同疾病状态下已知和未知的microRNA及其表达差异，为研究microRNA对细胞进程的作用及其生物学影响提供了有力工具。

3.8 什么是Chip-seq

染色质免疫共沉淀技术（Chromatin Immunoprecipitation，ChIP）也称结合位点分析法，是研究体内蛋白质与DNA相互作用的有力工具，通常用于转录因子结合位点或组蛋白特异性修饰位点的研究。将ChIP与第二代测序技术相结合的ChIP-Seq技术，能够高效地在全基因组范围内检测与组蛋白、转录因子等互作的DNA区段。

ChIP-Seq的原理是：首先通过染色质免疫共沉淀技术（ChIP）特异性地富集目的蛋白结合的DNA片段，并对其进行纯化与文库构建；然后对富集得到的DNA片段进行高通量测序。研究人员通过将获得的数百万条序列标签精确定位到基因组上，从而获得全基因组范围内与组蛋白、转录因子等互作的DNA区段信息。

3.9 什么是CHIRP-Seq

CHIRP-Seq( Chromatin Isolationby RNA Purification )是一种检测与RNA绑定的DNA和蛋白的高通量测序方法。方法是通过设计生物素或链霉亲和素探针，把目标RNA拉下来以后，与其共同作用的DNA染色体片段就会附在到磁珠上，最后把染色体片段做高通量测序，这样会得到该RNA能够结合到在基因组的哪些区域，但由于蛋白测序技术不够成熟，无法知道与该RNA结合的蛋白。

3.10 什么是RIP-seq

RNA Immunoprecipitation是研究细胞内RNA与蛋白结合情况的技术，是了解转录后调控网络动态过程的有力工具，能帮助我们发现miRNA的调节靶点。这种技术运用针对目标蛋白的抗体把相应的RNA-蛋白复合物沉淀下来，然后经过分离纯化就可以对结合在复合物上的RNA进行测序分析。

RIP可以看成是普遍使用的染色质免疫沉淀ChIP技术的类似应用，但由于研究对象是RNA-蛋白复合物而不是DNA-蛋白复合物，RIP实验的优化条件与ChIP实验不太相同（如复合物不需要固定，RIP反应体系中的试剂和抗体绝对不能含有RNA酶，抗体需经RIP实验验证等等）。RIP技术下游结合microarray技术被称为RIP-Chip，帮助我们更高通量地了解癌症以及其它疾病整体水平的RNA变化。

3.11 什么是CLIP-seq

CLIP-seq,又称为HITS-CLIP，即紫外交联免疫沉淀结合高通量测序(crosslinking-immunprecipitationand high-throughput sequencing), 是一项在全基因组水平揭示RNA分子与RNA结合蛋白相互作用的革命性技术。其主要原理是基于RNA分子与RNA结合蛋白在紫外照射下发生耦联，以RNA结合蛋白的特异性抗体将RNA-蛋白质复合体沉淀之后，回收其中的RNA片段，经添加接头、RT-PCR等步骤，对这些分子进行高通量测序，再经生物信息学的分析和处理、总结，挖掘出其特定规律，从而深入揭示RNA结合蛋白与RNA分子的调控作用及其对生命的意义。

3.12 什么是染色体构象捕获技术

3C 通常是用启动子或者某一个基因或者基因组某一个短的片段在邻近的几十kb或者几百kb基因组扫描可以获得相互作用区域。由于实验需要特异性引物，因而实验室相当费力的，且检测范围小。

4C同3C一样做单位点的检测，但其检测扩展到了整个基因组上。主要是引入了反向PCR，因而只需要对这一单一位点设计引物即可。

5C 做两个大片段之间相互作用点的检测，可以达到10Mb水平。其仍需使用引物，且引物设计是其技术的难点。

Hi-C 可以实现基因组对基因组水平的检测，但是获得高精度需要非常大的测序深度.

ChIA-PET标在于特定的蛋白因子及其相关联的染色质相互作用.该技术将配对末端标签测序技术与ChIP相结合, 对富集了某种蛋白质的DNA 片段进行交联, 可以测定全基因组范围的特定转录因子参与的染色质远程交互作用, 从而可以呈现高特异性和高分辨率的染色质相互作用.

3.13 什么是Hi-C辅助基因组组装

Hi-C辅助基因组组装是指在已有二代或三代或光学图谱辅助组装的Draft genome序列和已知染色体数目的前提下，利用Hi-C测序数据将Draft genome序列进行染色体群组的划分，并确定各序列在染色体上的顺序和方向，使基因组组装组装水平提升到染色体水平的技术。

3.14 什么是metagenomic（宏基因组）

Magenomics研究的对象是整个微生物群落。相对于传统单个细菌研究来说，它具有众多优势，其中很重要的两点：

(1) 微生物通常是以群落方式共生于某一小生境中，它们的很多特性是基于整个群落环境及个体间的相互影响的，因此做Metagenomics研究比做单个个体的研究更能发现其特性；

(2)Metagenomics研究无需分离单个细菌，可以研究那些不能被实验室分离培养的微生物。

宏基因组是基因组学一个新兴的科学研究方向。宏基因组学（又称元基因组学，环境基因组学，生态基因组学等），是研究直接从环境样本中提取的基因组遗传物质的学科。传统的微生物研究依赖于实验室培养，宏基因组的兴起填补了无法在传统实验室中培养的微生物研究的空白。过去几年中，DNA测序技术的进步以及测序通量和分析方法的改进使得人们得以一窥这一未知的基因组科学领域。

3.15 什么是SNP、SNV（单核苷酸位点变异）

单核苷酸多态性singlenucleotide polymorphism，SNP 或单核苷酸位点变异SNV。个体间基因组DNA序列同一位置单个核苷酸变异(替代、插入或缺失)所引起的多态性。不同物种、个体基因组DNA序列同一位置上的单个核苷酸存在差别的现象。有这种差别的基因座、DNA序列等可作为基因组作图的标志。人基因组上平均约每1000个核苷酸即可能出现1个单核苷酸多态性的变化，其中有些单核苷酸多态性可能与疾病有关，但可能大多数与疾病无关。单核苷酸多态性是研究人类家族和动植物品系遗传变异的重要依据。在研究癌症基因组变异时，相对于正常组织，癌症中特异的单核苷酸变异是一种体细胞突变（somatic mutation），称做SNV。

3.16 什么是INDEL (基因组小片段插入）

基因组上小片段（>50bp）的插入或缺失，形同SNP/SNV。

3.17 什么是copy number variation（CNV）：基因组拷贝数变异

基因组拷贝数变异是基因组变异的一种形式，通常使基因组中大片段的DNA形成非正常的拷贝数量。例如人类正常染色体拷贝数是2，有些染色体区域拷贝数变成1或3，这样，该区域发生拷贝数缺失或增加，位于该区域内的基因表达量也会受到影响。如果把一条染色体分成A-B-C-D四个区域，则A-B-C-C-D/A-C-B-C-D/A-C-C-B-C-D/A-B-D分别发生了C区域的扩增及缺失，扩增的位置可以是连续扩增如A-B-C-C-D也可以是在其他位置的扩增，如A-C-B-C-D。

3.18 什么是structure variation（SV）：基因组结构变异

染色体结构变异是指在染色体上发生了大片段的变异。主要包括染色体大片段的插入和缺失（引起CNV的变化），染色体内部的某块区域发生翻转颠换，两条染色体之间发生重组（inter-chromosometrans-location）等。一般SV的展示利用Circos软件。

3.19 什么是Segment duplication

一般称为SD区域，串联重复是由序列相近的一些DNA片段串联组成。串联重复在人类基因多样性的灵长类基因中发挥重要作用。在人类染色体Y和22号染色体上，有很大的SD序列。

3.20 什么是genotype and phenotype

既基因型与表型；一般指某些单核苷酸位点变异与表现形式间的关系。

3.21 什么是Read?

高通量测序平台产生的短序列就称为reads。PE125，就是读长为125bp双端测序。

3.22 什么是Contig?

拼接软件基于reads之间的overlap区，拼接获得的序列称为Contig（重叠群），无N。

3.23 什么是Scaffold?

基因组de novo测序，通过reads拼接获得Contigs后，往往还需要构建454 Paired-end库或Illumina Mate-pair库，以获得一定大小片段（如3Kb、6Kb、10Kb、20Kb）两端的序列。基于这些序列，可以确定一些Contig之间的顺序关系，这些先后顺序已知的Contigs组成Scaffold（含有N）。

3.24 什么是Contig N50？

Reads拼接后会获得一些不同长度的Contigs。将所有的Contig长度相加，能获得一个Contig总长度。然后将所有的Contigs按照从长到短进行排序，如获得Contig 1，Contig 2，Contig 3...………Contig 25。将Contig按照这个顺序依次相加，当相加的长度达到Contig总长度的一半时，最后一个加上的Contig长度即为Contig N50。举例：Contig 1+Contig 2+ Contig 3+Contig4=Contig总长度*1/2时，Contig 4的长度即为Contig N50。Contig N50可以作为基因组拼接的结果好坏的一个判断标准。

3.25 什么是Scaffold N50？

Scaffold N50与Contig N50的定义类似。Contigs拼接组装获得一些不同长度的Scaffolds。将所有的Scaffold长度相加，能获得一个Scaffold总长度。然后将所有的Scaffolds按照从长到短进行排序，如获得Scaffold 1，Scaffold 2，Scaffold 3...………Scaffold 25。将Scaffold按照这个顺序依次相加，当相加的长度达到Scaffold总长度的一半时，最后一个加上的Scaffold长度即为Scaffold N50。举例：Scaffold 1+Scaffold 2+Scaffold 3 +Scaffold 4 +Scaffold 5=Scaffold总长度*1/2时，Scaffold 5的长度即为Scaffold N50。Scaffold N50可以作为基因组拼接的结果好坏的一个判断标准。

3.26 什么是测序深度和覆盖度？

测序深度是指测序得到的总碱基数与待测基因组大小的比值。假设一个基因大小为2M，测序深度为10X，那么获得的总数据量为20M。覆盖度是指测序获得的序列占整个基因组的比例。由于基因组中的高GC、重复序列等复杂结构的存在，测序最终拼接组装获得的序列往往无法覆盖有所的区域，这部分没有获得的区域就称为Gap。例如一个细菌基因组测序，覆盖度是98%，那么还有2%的序列区域是没有通过测序获得的。

3.27 什么是RPKM、FPKM

RPKM, Reads Per Kilobase of exon model per Million mapped reads, is defined in this way [Mortazavi et al., 2008]:

每1百万个map上的reads中map到外显子的每1K个碱基上的reads个数。

假如有1百万个reads映射到了人的基因组上，那么具体到每个外显子呢，有多少映射上了呢，而外显子的长度不一，那么每1K个碱基上又有多少reads映射上了呢，这大概就是这个RPKM的直观解释。

如果对应特定基因的话，那么就是每1000000 mapped到该基因上的reads中每kb有多少是mapped到该基因上的exon的read.

举例：比如对应到该基因的read有1000个，总reads个数有100万，而该基因的外显子总长为5kb，那么它的RPKM为：10^9*1000(reads个数)/10^6(总reads个数)*5000(外显子长度)=200或者：1000(reads个数)/1(百万)*5(K)=200这个值反映基因的表达水平。

FPKM(fragments per kilo base of exon per million fragments mapped). FPKM与RPKM计算方法基本一致。不同点就是FPKM计算的是fragments，而RPKM计算的是reads。Fragment比read的含义更广，因此FPKM包含的意义也更广，可以是pair-end的一个fragment，也可以是一个read。

3.28 什么是转录本重构

用测序的数据组装成转录本。有两种组装方式：1，de-novo构建； 2，有参考基因组重构。其中de-novo组装是指在不依赖参考基因组的情况下，将有overlap的reads连接成一个更长的序列，经过不断的延伸，拼成一个个的contig及scaffold。常用工具包括velvet，trans-ABYSS，Trinity等。有参考基因组重构，是指先将read贴回到基因组上，然后在基因组通过reads覆盖度，junction位点的信息等得到转录本，常用工具包括scripture、cufflinks。

3.29 什么是表达谱

基因表达谱(gene expression profile)：指通过构建处于某一特定状态下的细胞或组织的非偏性cDNA文库,大规模cDNA测序,收集cDNA序列片段、定性、定量分析其mRNA群体组成,从而描绘该特定细胞或组织在特定状态下的基因表达种类和丰度信息,这样编制成的数据表就称为基因表达谱

3.30 什么是比较基因组学

比较基因组学(Comparative Genomics)是基于基因组图谱和测序基础上，对已知的基因和基因组结构进行比较，来了解基因的功能、表达机理和物种进化的学科。利用模式生物基因组与人类基因组之间编码顺序上和结构上的同源性，克隆人类疾病基因，揭示基因功能和疾病分子机制，阐明物种进化关系，及基因组的内在结构。

3.31 什么是基因组注释

基因组注释(Genome annotation) 是利用生物信息学方法和工具,对基因组所有基因的生物学功能进行高通量注释,是当前功能基因组学研究的一个热点。基因组注释的研究内容包括基因识别和基因功能注释两个方面。基因识别的核心是确定全基因组序列中所有基因的确切位置。