barcode,也叫index,在二代测序里面是用于区分不同样品的。为了避免概念扩大,在此处仅指的在二代测序(NGS)里面的barcode。
barcode是做什么的
当今二代测序仪器中应用最为广泛的当属illumina公司的测序仪,以Hiseq-2000测序仪为例,其有2个流动槽(flowcell),每个flowcell有8条lane(通道),而单就其一条lane的测序数据量就可达44G。
然而对于目前的外显子组测序来说,测序区域大约64M,测序深度200X,总数据量也才13G,Hiseq-2000的一个lane就足以测定3个外显子组样品。以转录组来说,一个样品测序量不会超过4G,一个lane可以同时测定10个转录组样品。
大体而言,外显子组测序、转录组测序、miRNA测序、lncRNA测序、ChIP测序等组数据,每个样品所需的数据量通常都比较少。
barcode是样品标签
由于测序仪器的测序能力远大于测试样本序列量,为避免仪器浪费,因此一个lane同时测定多个样品成为很自然的思路。然而为了区分多种样品的序列,就必须要给不同样品加上特定的“标签”,从而可以在后续数据分析时将不同样品数据分开,而这个“标签”就是barcode。
简言之,barcode就是测序中混合样品的”身份证“,用于区分不同样品。
如何选择好的barcode
barcode的选择有两个原则:碱基平衡和激光平衡。
碱基平衡
碱基平衡是指的需要兼顾barcode序列的平衡度与复杂度,平衡度是指的碱基的比例是均衡的(1:1是最均衡的),而复杂度是指的碱基的种类是多样的(四种碱基同时存在是最多样的)。
所以最好的barcode序列应该是同时有A、T、G、C四种碱基,且各碱基所占比例近似均为25%。
此处所说的碱基平衡是指的多个barcode之间的平衡,并非一个barcode内部的碱基平衡。举例来说,有12个转录组样品需要测定,那么就需要12个barcode(假定每个barcode长度为6位),根据碱基平衡原则,第一位barcode碱基应该尽量同时存在A、T、G、C四种碱基,且各碱基所占比例近似均为25%,也就是这12个barcode序列最佳情况应该是以A、T、G、C开头各3个。剩余5个碱基位的barcode以此类推。
激光平衡
在illumina测序仪中,A和C两种碱基共用一种激光,由波长660nm的红激光激发;G和T共用一种激光,由波长532 nm的绿激光激发。因此假使不能满足碱基平衡的情况下,可以退而求其次,尽量满足激光平衡。简单来说,激光平衡就是尽量在使用的一组barcode中满足每个碱基位都是A+C=G+T。
既不满足碱基平衡,又不满足激光平衡的barcode将会有很大的数据分离隐患,或者无法分离开样品,或者无法识别某些测序片段。
Illumina推荐的12个barcode序列详列如下。
ATCACG
CGATGT
TTAGGC
TGACCA
ACAGTG
GCCAAT
CAGATC
ACTTGA
GATCAG
TAGCTT
GGCTAC
CTTGTA
建库测序时barcode是如何发挥作用的
这里以illumina测序仪为例。如图所示,在最下面的构建完好的可上级测序的序列中,insert是样品片段,barcode(图中的“i")位于下游接头中。"a”与“e"是接头序列,用于结合到测序仪的flowcell上的P5和P7序列。