標題摘要內容
 高通量測序基礎知識匯總 
技術支持/Technology

刀塔自走棋糖果充值:一代測序技術:即傳統的Sanger測序法,Sanger法是根據核苷酸在待定序列模板上的引物點開始,隨機在某一個特定的堿基處終止,并且在每個堿基后面進行熒光標記,產生以A、T、C、G結束的四組不同長度的一系列核苷酸,每一次序列測定由一套四個單獨的反應構成,每個反應含有所有四種脫氧核苷酸三磷酸(dNTP),并混入限量的一種不同的雙脫氧核苷三磷酸(ddNTP)。由于ddNTP缺乏延伸所需要的3-OH 基團,使延長的寡聚核苷酸選擇性地在G、A、TC處終止,使反應得到一組長幾百至幾千堿基的鏈終止產物。它們具有共同的起始點,但終止在不同的的核苷酸上,可通過高分辨率變性凝膠電泳分離大小不同的片段,通過檢測得到DNA堿基序列。

刀塔自走棋段位花呗 www.zjrpd.icu  

二代測序技術:next generation sequencingNGS)又稱為高通量測序技術,與傳統測序相比,二代測序技術可以一次對幾十萬到幾百萬條核酸分子同時進行序列測定,從而使得對一個物種的轉錄組和基因組進行細致全貌的分析成為可能,所以又被稱為深度測序(Deep sequencing)。NGS主要的平臺有Roche454 & 454+),IlluminaHiSeq 2000/2500、GA IIx、MiSeq),ABI SOLiD等。

 

基因Gene,是遺傳的物質基礎,是DNARNA分子上具有遺傳信息的特定核苷酸序列?;蟯ü粗瓢巖糯畔⒋莞亂淮?,使后代出現與親代相似的性狀。

 

DNADeoxyribonucleic acid,脫氧核糖核酸,一個脫氧核苷酸分子由三部分組成:含氮堿基、脫氧核糖、磷酸。脫氧核糖核酸通過3',5'-磷酸二酯鍵按一定的順序彼此相連構成長鏈,即DNA鏈,DNA鏈上特定的核苷酸序列包含有生物的遺傳信息,是絕大部分生物遺傳信息的載體。

 

RNARibonucleic Acid,,核糖核酸,一個核糖核苷酸分子由堿基,核糖和磷酸構成。核糖核苷酸經磷酯鍵縮合而成長鏈狀分子稱之為RNA鏈。RNA是存在于生物細胞以及部分病毒、類病毒中的遺傳信息載體。不同種類的RNA鏈長不同,行使各式各樣的生物功能,如參與蛋白質生物合成的RNA有信使RNA、轉移RNA和核糖體RNA等。

 

16S rDNA"S"是沉降系數,是反映生物大分子在離心場中向下沉降速度的一個指標,值越高,說明分子越大。rDNAribosome DNA)指的是原核生物基因組中編碼核糖體RNArRNA)分子對應的DNA序列,16S rDNA 是原核生物編碼核糖體小亞基16S rRNA的基因。細菌rRNA(核糖體RNA)按沉降系數分為3種,分別為5S、16S23S rRNA。16S rDNA是細菌染色體上編碼16S rRNA相對應的DNA序列,存在于所有細菌染色體基因中。16S rRNA 普遍存在于原核生物中。16S rRNA 分子,其大小約1540bp,既含有高度保守的序列區域,又有中度保守和高度變化的序列區域,其可變區序列因細菌不同而異,恒定區序列基本保守,所以可利用恒定區序列設計引物,將16S rDNA片段擴增出來,通過高通量測序利用可變區序列的差異來對不同菌屬、菌種的細菌進行分類鑒定。

 

cDNAcomplementary DNA,互補脫氧核糖核酸,與RNA鏈互補的單鏈DNA,以RNA為模板,在反轉錄酶的作用下所合成的DNA。

 

Small RNA:生物體內一類高度保守的重要的功能分子,其大小在18-30nt,包括microRNA、siRNA、snRNA、snoRNApiRNApiwi-interacting RNA)等,它的主要功能是誘導基因沉默,調控細胞生長、發育、基因轉錄和翻譯等生物學過程。以miRNA為例介紹它們的功能:miRNARNA誘導沉默復合體(RNA induced silencing complex, RISC)結合,并將此復合體與其互補的mRNA序列結合,根據靶序列與miRNA的互補程度,從而導致靶序列降解或干擾靶序列蛋白質的翻譯過程。

 

SD 域:Segment duplication,串聯重復是由序列相近的一些 DNA 片段串聯組成。串聯重復在人類基因多樣性的靈長類基因中發揮重要作用。

 

Genotype and phenotype,基因型是指某一生物個體全部基因組合的總稱;表型,又稱性狀,是基因型和環境共同作用的結果。

 

基因組Genome,單倍體細胞核、細胞器(線粒體、葉綠體)或病毒粒子所含的全部DNA分子或RNA分子。

 

全基因組de novo測序:又稱從頭測序,它不依賴于任何現有的序列資料,而直接對某個物種的基因組進行測序,然后利用生物信息學分析手段對序列進行拼接、組裝,從而獲得該物種的基因組序列圖譜。

 

全基因組重測序:對已有參考序列(Reference Sequence)物種的不同個體進行基因組測序,并以此為基礎進行個體或群體水平的遺傳差異性分析。全基因組重測序能夠發現大量的單核苷酸多態性位點(SNP)、拷貝數變異(Copy Number Variation,CNV)、插入缺失(InDel,Insertion/Deletion)、結構變異(Structure Variation,SV)等變異類型,以準確快速的方法將單個參考基因組信息上升為群體遺傳特征。

 

轉錄組Transcriptome,是指特定生長階段某組織或細胞內所有轉錄產物的集合;狹義上指所有mRNA的集合。

 

轉錄組測序:對某組織在某一功能狀態下所能轉錄出來的所有RNA進行測序,獲得特定狀態下的該物種的幾乎所有轉錄本序列信息。通常轉錄組測序是指對mRNA進行測序獲得相關序列的過程。其根據所研究物種是否有參考基因組序列分為轉錄組de novo測序(無參考基因組序列)和轉錄組重測序(有參考基因組序列)。

 

外顯子組Exome,人類基因組全部外顯子區域的集合稱為外顯子組,是基因中重要的編碼蛋白的部分,并涵蓋了與個體表型相關的大部分的功能性變異。

 

外顯子組測序:是指利用序列捕獲技術將全基因組外顯子區域DNA捕捉并富集后進行高通量測序的基因組分析方法。外顯子測序相對于基因組重測序成本較低,對研究已知基因的SNP、InDel 等具有較大的優勢。

 

目標區域測序:應用相關試劑盒對基因組上感興趣的目標區域進行捕獲富集后進行大規模測序,一般需要根據目標區域專門定制捕獲芯片。

 

宏基因組:Metagenome,指特定生活環境中全部微小生物遺傳物質的總和。它包含了可培養的和未可培養的微生物的基因。目前主要指環境樣品中的細菌和真菌的基因組總和。

 

宏基因組16S rRNA測序:可以對特定環境下的細菌和古細菌群體的微生物種類和風度進行有效的鑒定。對不同地點、不同條件下的多個樣本16S rRNAPCR產物平行測序,可以比較不同樣本間的微生物組成及成分差異,進而闡明物種豐度、種群結果等生態學信息。

 

表觀遺傳學Epigenetics,是指在基因組DNA序列沒有改變的情況下,基因的表達調控和性狀發生了可遺傳的變化。表觀遺傳的現象很多,已知的有DNA甲基化(DNA methylation),基因組印記(genomic impriting),母體效應(maternal effects),基因沉默(gene silencing),核仁顯性,休眠轉座子激活和RNA編輯(RNA editing)等。

 

全基因組甲基化測序DNA 甲基化是指在 DNA 甲基化轉移酶的作用下,在基因組 CpG 二核苷酸的胞嘧啶5'碳位共價鍵結合一個甲基基團。DNA 甲基化已經成為表觀遺傳學和表觀基因組學的重要研究內容。甲基化是基因表達的主要調控方式之一,研究染色體DNA甲基化情況是了解基因調控的重要手段。對已經有參考基因組的物種的基因組DNA用標準亞硫酸氫鹽(Bisulfite)處理后,未甲基化的胞嘧啶C會脫氨基形成尿嘧啶U,經PCR擴增,U替換為胸腺嘧啶T,而發生甲基化的胞嘧啶C保持不變。將處理組與參考基因組序列進行比對,可發現甲基化位點并對甲基化情況進行定量分析的方法叫做全基因組甲基化測序。

 

ChIp-SeqChromatin Immunoprecipitation sequencing,即染色質免疫共沉淀-測序技術,即通過染色質免疫共沉淀技術特異性地富集目的蛋白結合的DNA片段。對富集得到的DNA片段進行純化與文庫構建,然后進行高通量測序,從而得到全基因組范圍內可以與目的蛋白相互作用的DNA片段的方法叫做ChIP-Seq。

 

數字表達譜Digital Gene Expression Profile,利用新一代高通量測序技術和高性能計算分析技術,能夠全面、經濟、快速地檢測某一物種特定組織在特定狀態下的基因表達情況,即運用特定的酶對mRNApolyA tail 21-25nt的位置進行酶切,所獲得的帶polyA尾的序列(Tag)通過高通量測序,該tag被測得的次數即是對應基因的表達值。數字基因表達譜已被廣泛應用于基礎科學研究、醫學研究和藥物研發等領域。特點是經濟,但獲得的數據量有限。若想獲得轉錄本的更多信息的話,一般都采用轉錄組測序的方法來測序。

 

SBSsequencing by synthesis,邊合成邊測序反應,是指在DNA聚合酶的作用下延伸堿基所進行的測序。

 

Run:指高通量測序平臺單次上機測序反應。




















1. Flow Cell結構示意圖?

 

Lane:也叫channel,單泳道,每條泳道包含2列(column),每列分布有多個小區(tile),如圖1。不同的測序平臺Flow Cell中所含的Lane不一樣,如HiSeq 20002flow cell,每個flow cell中含有8lane;HiSeq 2500是包含2mini flow cell(快速運行模式)和2high output flow cell,兩個模式不能同時運行,其中每個mini flow cell包含2lane,每個high output flow cell中包含8lane;Miseq系統的flow cell僅含有1lane。

 

Tile小區,每條Lane中有2tile,合計120個小區。每個小區上分布數目繁多的簇結合位點,如圖1。

 

Cluster:簇,在Illumina測序平臺中會采用橋式PCR方式生產DNA簇,每個DNA簇才能產生亮度達到CCD可以分辨的熒光點。

Index標簽,在Illumina平臺的多重測序(Multiplexed Sequencing)過程中會使用Index來區分樣品,并在常規測序完成后,針對Index部分額外進行7個循環的測序,通過Index的識別,可以在1Lane中區分12種不同的樣品。

 

Barcode:與Index同義,多指在Roche GS FLX 454測序平臺的16S PCR產物的測序過程中接頭序列所包含的的用來區分不同樣本的序列。

 

PF%PF%是指符合測序質量標準的簇的百分比,與測序的通量相關聯。

 

Fasta一種序列存儲格式。一個序列文件若以FASTA格式存儲,則每一條序列的第一行以“>”開頭,而跟隨“>”的是序列的ID號(即唯一的標識符)及對該序列的描述信息;第二行開始是序列內容,序列短于61nt的,則一行排列完;序列長于61nt的,則每行存儲61nt,最后剩下小于61nt的,在最后一行排列完;第二條序列另起一行,仍然由“>”和序列的ID號開始,以此類推。

 

FastqFastqSolexa測序技術中一種反映測序序列的堿基質量的文件格式。第一行以“@”符號開頭,后面緊跟一個序列的描述信息;第二行是該序列的內容;第三行以“+”符號開頭,后面可以是該序列的描述信息,也可省略;而第四行是第二行中的序列內容每個堿基所對應的測序質量值。

 

Read高通量測序平臺產生的序列標簽就稱為 reads。

 

基因組組裝:進行基因組或轉錄組de novo測序時,物種基因組經構建不同的文庫測序所得的片段需經過生物信息學手段對其進行整理拼接,并通過一定的標準(如N50)對后續組裝結果進行質量評估等,最終獲得高準確度的基因組序列的過程。

 

基因組測序深度:測序得到的總堿基數與待測基因組大小的比值。如測一個物種的全基因組的重測序,基因組大小約為5G,測序獲得100G的數據量,則測序深度為20×。

 

基因組覆蓋率:指測序獲得的序列占整個基因組的比例。由于基因組中的高GC、重復序列等復雜結構的存在,測序最終拼接組裝獲得的序列往往無法覆蓋有所的區域,這部分沒有獲得的區域就稱為Gap。例如一個細菌基因組測序,覆蓋率是98%,那么還有2%的序列區域是沒有通過測序獲得的。

 

Contigde novo測序中拼接軟件基于 reads 之間的 overlap 區,拼接獲得的中間沒有gap的序列稱為 Contig(重疊群)。

 

Scaffold基因組 de novo 測序,通過 reads 拼接獲得 Contigs 后,往往還需要構建 454 Paired-end 庫或 Illumina Mate-pair 庫,以獲得一定大小片段(如 3Kb、8Kb、10Kb、20Kb)兩端的序 列?;謖廡┬蛄?,可以確定一些 Contig 之間的順序關系,這些先后順序已知的 Contig Scaffold。

 

Contig N50Reads拼接后會獲得一些不同長度的Contigs。將所有的Contig長度相加,能獲得一個Contig總長度。然后將所有的Contigs按照從長到短進行排序,如獲得Contig 1,Contig 2,Contig 3……Contig 25。將Contig按照這個順序依次相加,當相加的長度達到Contig總長度的一半時,最后一個加上的Contig長度即為Contig N50。舉例:Contig 1+Contig 2+ Contig 3 +Contig 4=Contig總長度*1/2時,Contig 4的長度即為Contig N50。Contig N50可以作為基因組拼接的結果好壞的一個判斷標準。

 

Scaffold N50Scaffold N50Contig N50的定義類似。Contigs拼接組裝獲得一些不同長度的Scaffolds。將所有的Scaffold長度相加,能獲得一個Scaffold總長度。然后將所有的Scaffolds按照從長到短進行排序,如獲得Scaffold 1,Scaffold 2,Scaffold 3……Scaffold 25。將Scaffold按照這個順序依次相加,當相加的長度達到Scaffold總長度的一半時,最后一個加上的Scaffold長度即為Scaffold N50。舉例:Scaffold 1+Scaffold 2+ Scaffold 3 +Scaffold 4 +Scaffold 5=Scaffold總長度*1/2時,Scaffold 5的長度即為Scaffold N50。Scaffold N50可以作為基因組拼接的結果好壞的一個判斷標準。

 

Isotig指在轉錄組de novo測序時,用454平臺測序完成后組裝出的結果,一個isotig可視為一個轉錄本。

 

Isogroup指轉錄組de novo測序中,用454平臺測序完成后組裝出的結果獲得的可聚類到同一個基因的轉錄本群。

 

GC%GC含量,全基因組范圍內或在特定基因組序列內的4種堿基中,鳥嘌呤和胞嘧啶所占的比率。

 

SNPsingle nucleotide polymorphism,單核苷酸多態性,個體間基因組DNA序列同一位置單個核苷酸變異(替代、插入或缺失)所引起的多態性;不同物種個體基因組 DNA 序列同一位置上的單個核苷酸存在差別的現象。有這種差別的基因座、DNA序列等可作為基因組作圖的標志。SNP CG序列上出現最為頻繁,而且多是C轉換為,原因是CG中的常為甲基化的,自發地脫氨后即成為胸腺嘧啶。一般而言,SNP 是指變異頻率大于1 %的單核苷酸變異,主要用于高危群體的發現、疾病相關基因的鑒定、藥物的設計和測試以及生物學的基礎研究等。

 

InDelInsertion/Deletion,插入/缺失,在基因組重測序進行mapping時,進行容Gap的比對并檢測可信的Short InDel,如基因組上小片段>50bp的插入或缺失。在檢測過程中,Gap的長度為1~5個堿基。

 

CNVcopy number variation,基因組拷貝數變異,是基因組變異的一種形式,通常使基因組中大片段的DNA形成非正常的拷貝數量。如人類正常染色體拷貝數是2,有些染色體區域拷貝數變成13,這樣,該區域發生拷貝數缺失或增加,位于該區域內的基因表達量也會受到影響。如果把一條染色體分成A-B-C-D四個區域,則A-B-C-C-D/A-C-B-C-D/A-C-C-B-C-D/A-B-D 分別發生了C區域的擴增及缺失,擴增的位置可以是連續擴增如 A-B-C-C-D 也可以是在其他位置的擴增,如A-C-B-C-D。

 

SVstructure variation,基因組結構變異,染色體結構變異是指在染色體上發生了大片段的變異。主要包括染色體大片段的插入和缺失(引起 CNV 的變化),染色體內部的某塊區域發生重復復制、翻轉顛換、易位、兩條染色體之間發生重組(inter-chromosome trans-location)等。

 

基因表達差異:是指某一物種或特定細胞在特定時期/功能狀態下,多樣本間不同基因在mRNA水平上表達量的差異,可通過RPKM/FPKM值來體現。

 

RPKMReads Per Kilobase per Million mapped reads [Mortazavi?etal.,?2008],是指每 1 百萬個map  reads  map 到外顯子的每1K 個堿基上的reads 個數。計算公式四RPKM=106C/NL/103,其中C為唯一比對到目的基因的reads數;N為唯一比對到參考基因的總reads數,L是目的基因編碼區的堿基數。RPKM法可以消除基因長度、數據量之間的差異進行計算基因表達量。

 

可變剪切:alternative splicing大多數真核基因轉錄產生的mRNA前體是按一種方式剪接產生出一種mRNA,因而只產生一種蛋白質。但有些基因產生的mRNA前體可按不同的方式剪接,產生出兩種或更多種mRNA,即可變剪接。

 

基因融合:Gene fusion,個或多個,,,白。

 

基因家族分析:通過進行BLASTN/ HMM比對等查找基因歸屬的基因家族并添加相關功能注釋。

 

基因組注釋:Genome annotation是利用生物信息學方法和工具,對基因組所有基因的生物學功能進行高通量注釋,是當前功能基因組學研究的一個熱點?;蜃樽⑹偷難芯磕諶蒞ɑ蚴侗鷙突蜆δ蘢⑹土礁齜矯??;蚴侗鸕暮誦氖僑范ㄈ蜃樾蛄兄興謝虻娜非形恢?。常見的基因組注釋有GO注釋、pathway分析。

 

GO注釋:gene ontology是指對基因功能的注解。GO強調基因產物在細胞中的功能。GO不能反映此基因的表達情況,即是否在特定細胞中、特定組織中、特定發育階段或與某種疾病相關,但GO支持其他的OBO(open biology ontologies)成員成立其他類型的本體論數據庫(如發育本體學、蛋白組本體學、基因芯片本體學等)

 

Pathway注釋:是指對功能基因參與的信號通路等進行分析注釋。

 

甲基化率:是指在甲基化測序中,發生甲基化的胞嘧啶占所有胞嘧啶的比率。

 

CpG島:CpG island 是指DNA上一個區域,此區域含有大量相聯的胞嘧啶(C)、鳥嘌呤(G),以及使兩者相連的磷酸酯鍵(p)?;蜃櫓諧ざ任?/font>3003000 bp的富含CpG二核苷酸的一些區域,主要存在于基因的5’區域。啟動子區中CpG島的未甲基化狀態是基因轉錄所必需的,而CpG序列中的C的甲基化可導致基因轉錄被抑制。