干貨分享 | SNP研究中,你一定遇到過這些問題,附解答!
SNP作為第三代分子標記,其應(yīng)用非常廣泛,在農(nóng)業(yè)領(lǐng)域中,可以進行性狀基因的精細定位、分子輔助育種、種子資源鑒定等;在醫(yī)學(xué)領(lǐng)域中,可用于疾病的分子遺傳機制研究、疾病基因定位、藥物敏感或疾病易感性位點篩選等,生命科學(xué)研究的方方面面,都與之相關(guān)。
SNP的研究主要分為SNP的發(fā)現(xiàn)及SNP的基因分型。SNP的發(fā)現(xiàn)是應(yīng)用的基礎(chǔ),而SNP的基因分型是應(yīng)用的技術(shù)手段。新SNP通常是基于測序技術(shù),利用已有數(shù)據(jù)庫,對多個樣本進行重測序發(fā)現(xiàn)的,但需要進行其他方法的驗證;而已知SNP的基因分型可以通過芯片技術(shù)來篩選與表型相關(guān)的SNP,從中優(yōu)選出多態(tài)性高,均勻分布的少量SNP,這些少量的SNP可以在大量樣本中進行檢測,根據(jù)樣本情況、SNP數(shù)量、試驗設(shè)計等選擇合適的方法學(xué)。前段時間,小編和大家一起了解了SNP分型檢測的幾種常用方法、原理以及在不同領(lǐng)域的應(yīng)用情況等,近期小編也收集到部分小伙伴關(guān)于SNP的問題,整理如下,方便大家進一步對一些細節(jié)性問題進行了解哦。
想了解SNP就得先了解什么是DNA的多態(tài)性。人與人之間絕大部分的DNA序列是一樣的,DNA的多態(tài)性是指正常人群中,DNA分子或基因的某些位點可以發(fā)生改變,使DNA的一級結(jié)構(gòu)各不相同,但并不影響基因的表達,形成多態(tài);DNA的多態(tài)性可以看作是在分子水平上的個體區(qū)別的遺傳標志。DNA多態(tài)性主要表現(xiàn)為反應(yīng)限制性酶切位點變化的限制性片段長度多態(tài)性(RFLP)、反應(yīng)重復(fù)單位拷貝數(shù)差異的串聯(lián)重復(fù)序列多態(tài)性,以及反應(yīng)點突變的單核苷酸多態(tài)性(SNP)等。
為什么說SNP是二等位基因系統(tǒng),而不像RFLP和SSR是多等位基因系統(tǒng)?單核苷酸多態(tài)性(Single Nucleotide Polymorphisms,SNP)主要是指在基因組水平上由單個核苷酸的變異所引起的DNA序列多態(tài)性,即在群體中,基因組內(nèi)特定核苷酸位置上存在兩種不同的核苷酸,并且其出現(xiàn)的頻率大于1%。SNP所表現(xiàn)的多態(tài)性只涉及到單個堿基的變異,這種變異可由單個堿基的轉(zhuǎn)換(transition嘧啶和嘧啶之間或者嘌呤和嘌呤之間的交換)或顛換(transversion嘧啶和嘌呤之間的交換)所引起,也可由堿基的插入或缺失所致。SNP 在CG 序列上出現(xiàn)較為頻繁,由于CG 中C 即胞嘧啶常被甲基化,自發(fā)脫氨后即變?yōu)樾叵汆奏,因此大多數(shù)情況下,都是發(fā)生的C→T的轉(zhuǎn)換,而變成A和G的概率很小,所以一般認為SNP是二等位的,或者是二態(tài)性,即一個堿基只會突變?yōu)榱硪环N堿基,而不會同時突變?yōu)榱硗舛喾N堿基。由于SNP的二態(tài)性,非此即彼,在基因組篩選中SNPs只需要+/-的分析,而不用分析片段的長度,也讓其應(yīng)用更為廣泛。
SNP是單堿基多態(tài)性,是一個群體概念,這個差異占群體的1%以上。若germline mutation頻率<1%,則認為是一個點突變。SNP是各種生物都有的,通過同源基因比對獲得的,一般不會發(fā)生變化,而點突變只對單一基因而言,所以從數(shù)量上SNP比點突變多得多。如果突變發(fā)生在生殖細胞,則可以遺傳,但是只要這個突變?nèi)簺]有達到總?cè)后w的1%,它就只有一個突變株/系,達到了1%就是多態(tài)性了。
SNV,即單核苷酸位點變異(single nucleotide variants),SNP,即單核苷酸多態(tài)性(single nucleotide polymorphism),這兩個概念都是指單核苷酸的改變,只不過SNP一般是二態(tài)的,而SNV沒有這樣的限制。另外,如果只是在病人體內(nèi)檢測到單個核苷酸的變異,而其在人群中出現(xiàn)的頻率未知,則可看作SNV。
分子標記(Molecular Markers)是以個體間遺傳物質(zhì)即核苷酸序列變異為基礎(chǔ)的遺傳標記,是DNA水平遺傳多態(tài)性的直接反映。根據(jù)分子標記檢測的原理、技術(shù)手段以及通量效率,一般將分子標記分為三大類,分別是基于分子雜交技術(shù)的第一代分子標記、基于PCR技術(shù)的第二代分子標記以及基于測序技術(shù)的第三代分子標記。不同的分子標記技術(shù)如圖1 所示。
最典型的代表類型如限制性片段長度多態(tài)性(RFLP),是以Southern雜交為核心設(shè)計。限制性片段長度多態(tài)性是指同種生物不同個體間DNA 序列產(chǎn)生差異,形成可被限制性內(nèi)切酶識別的序列進而可被消化,被消化后的產(chǎn)物由于長度不同可通過電泳進行分型,RFLP操作簡單、成本低廉,從而使RFLP被選為人類基因組計劃的第一代遺傳標記,用于基因圖譜繪制、DNA指紋分析、疾病易感性分析、基因診斷、親權(quán)鑒定等。包括隨機擴增多態(tài)性DNA(random amplified polymorphic DNAs,RAPD),擴增片段長度多態(tài)性(Amplified Fragment Length Polymorphism,AFLP)、簡單序列重復(fù)標記(SSR)等,也有學(xué)者僅將微衛(wèi)星作為第二代分子標記代表,即短串聯(lián)重復(fù)序列(STR)或簡單重復(fù)序列(SSR),一般由2-6個核苷酸組成,是廣泛分布在真核生物基因組中的簡單重復(fù)序列。它具有多態(tài)性高、穩(wěn)定可靠等特點,因此是一種十分理想的分子標記,在遺傳圖譜構(gòu)建、數(shù)量性狀位點(QTL)定位、標記輔助選擇、遺傳檢測等領(lǐng)域都有著重要的應(yīng)用價值。隨著DNA測序技術(shù)的發(fā)展,以單核苷酸多態(tài)性(SNP)為代表的第三代分子標記迅速發(fā)展成為主流,SNP在所有生物的基因組中含量豐富,突變率較低,且獲取的成本低,因此被廣泛用于遺傳多樣性、系統(tǒng)發(fā)育分析和遺傳和疾病相關(guān)基因的研究中。第1-3代分子標記中幾種代表性的標記類型的特點如表1所示。
表1.第1-3代標記中幾種代表性的DNA分子標記的特點
具有高的多態(tài)性,較高的多態(tài)水平和樣本量,有利于在試驗中檢測出個體間的差異,差異性越大,越能體現(xiàn)出優(yōu)勢基因和優(yōu)勢基因型;
共顯性遺傳,即利用分子標記可鑒別二倍體中雜合和純合基因型;
除特殊位點的標記外,要求分子標記均勻分布于整個基因組;
容易獲得且可快速分析,檢測手段便于實現(xiàn)自動化;
開發(fā)成本和使用成本盡量低廉;
在實驗室內(nèi)和實驗室間重復(fù)性好(便于數(shù)據(jù)交換)。
SNP在基因組內(nèi)的形式有哪些,都會對生物表型有影響嗎?在基因組DNA中,任何堿基均有可能發(fā)生變異,因此SNP既有可能在基因序列內(nèi),也有可能在基因以外的非編碼序列上。總的來說,有三類:位于基因周邊的SNPs(pSNPs),位于基因間的SNPs(iSNPs),以及位于編碼區(qū)內(nèi)的SNP(codingSNP,cSNP)。
位于編碼區(qū)內(nèi)的SNP(cSNP)比較少,但由于它發(fā)生在編碼區(qū)內(nèi),在遺傳性疾病研究中具有重要意義,因此cSNP的研究更受關(guān)注。從對生物的遺傳性狀的影響上來看,cSNP又可分為2種:一種是同義cSNP(synonymous cSNP),即SNP所致的編碼序列的改變并不影響其所翻譯的蛋白質(zhì)的氨基酸序列,突變堿基與未突變堿基的含義相同;另一種是非同義cSNP(non-synonymous cSNP),指堿基序列的改變可使以其為藍本翻譯的蛋白質(zhì)序列發(fā)生改變,從而影響了蛋白質(zhì)的功能。這種改變常是導(dǎo)致生物性狀改變的直接原因。cSNP中約有一半為非同義cSNP。
位于非編碼區(qū)域的SNP又可細分為兩類,內(nèi)含子中SNP對個基因功能的影響相對較小,主要依靠影響剪切位點活性來影響翻譯,從而基因功能。而基因調(diào)控區(qū)域包含啟動子區(qū)域、增強子區(qū)域等等,這些區(qū)域含有很多基因表達調(diào)控元件,這些位點的SNP發(fā)生變化,就會導(dǎo)致與調(diào)控因子的結(jié)合能力發(fā)生改變,從而影響正常的基因表達。
由美國國立生物技術(shù)信息中心(national center for biotechnology information,NCBI)建立、dbSNP 數(shù)據(jù)庫制定的 SNP 命名體系,rs 體系的 SNP 代表已獲得認可和推薦的參考 SNP(reference SNP),ss 體系的 SNP 代表用戶新遞交但尚未得到認可的 SNP(submitted SNP)。對于新發(fā)現(xiàn)的SNP位點,需要判斷這些SNP位點是否已知。如果該SNP位點是前人報道,需要查找rs號和引用參考文獻,如果為新發(fā)現(xiàn)的位點則需要將該位點遞交到NCBI上,獲得ss號。
SNPedia是一個SNP百科全書類網(wǎng)站,它引用已經(jīng)發(fā)布的文章或者數(shù)據(jù)庫信息,對SNP位點進行描述,共享著人類基因組變異的信息。我們可以搜索某個SNP位點來尋找與之相關(guān)的信息,也可以根據(jù)相關(guān)疾病和癥狀來尋找相關(guān)的SNP(圖2)。圖2.SNPedia首頁
- 如果是單基因遺傳,特別是罕見遺傳的疾病,可以通過外顯子測序?qū)σ粋€家系的幾個個體進行測序,篩選低頻突變,隨后找到能改變蛋白功能的突變,最后做共分離分析。
- 如果是多基因病或者質(zhì)量性狀定位,那么2個方法,一是全基因組關(guān)聯(lián)分析GWAS,用散發(fā)型個體,進行關(guān)聯(lián)分析,不過這種方法要的樣本量比較大,一般都要好幾百至好幾千個樣本。二是基因家系的連鎖分析,這個主要是定位,然后在后續(xù)做一些東西,一般用芯片或者全基因組重測序或者簡化基因組測序。
- 通過參考資料鎖定研究相關(guān)的基因,通過數(shù)據(jù)庫查到基因內(nèi)部的 SNP 位點。
- 查找相關(guān)的參考文獻,找到研究相關(guān)的 SNP 位點。
進行SNP位點驗證,采用對照組和實驗組的大量樣本,驗證目標SNP位點SNaPshot 法:基于多重PCR和ABI 3730xl 測序平臺的 SNP 分型檢測;
直接測序法:基于一代測序平臺的SNP分型檢測;
質(zhì)譜法:基于Sequenom平臺的SNP分型檢測;
Taqman探針法:基于熒光定量PCR儀平臺的SNP分型檢測,等等。
根據(jù)已有的對照組和實驗組的SNP分型結(jié)果與實驗?zāi)康倪M行關(guān)聯(lián)分析,如與疾病的關(guān)聯(lián)分析、遺傳連鎖分析、品種鑒定等ARMS PCR是基于Taq DNA聚合酶無法修復(fù)引物3’末端的單個堿基錯配,從而使得擴增受阻的檢測方法。該方法理論上單個堿基的錯配即可阻礙PCR的擴增,但在實際檢測時,單個堿基的錯配依然可以延伸擴增,只是效率較低。為了提高其特異性,有時需在3’末端倒數(shù)第2位或第3位堿基處引入一個錯配堿基,該錯配堿基與3’末端的錯配堿基共同作用,以降低非靶標序列的擴增效率。而如何設(shè)計錯配堿基可參考如下標準(圖3):1)當(dāng)3’末端是“強”錯配時(A/G或G/T)時,可以在引物中引入一個“弱”錯配(C/A或C/T);2)當(dāng)末端是“弱”錯配時,則需要在引物中引入一個“強”錯配;3)當(dāng)末端是“中”錯配時(A/A,C/C,G/G,T/T)時,可以在引物中再引入一個“中”錯配。一般在3’末端倒數(shù)第三個堿基引入突變,可顯著提高特異性。
雖然有以上強弱錯配進行搭配的參考原則,但在實際產(chǎn)品開發(fā)過程中,小編還是建議把所有堿基錯配類型全部嘗試一遍,如引入錯配位置模板為C堿基,則可考慮設(shè)計A/C、T/C、C/C三種錯配進行篩選。此外理論上,3′端倒數(shù)第2或第3位錯配篩選到合適引物的概率最高,但假如這兩個位置效果都不理想,可嘗試3′端倒數(shù)第4、5位,甚至是倒數(shù)第7位。如果從3′端倒數(shù)第2位至倒數(shù)第7位全部篩選,總共要篩選18條引物,引物的條數(shù)是比較多的,但是確實位置不同可能效果也不同,具體什么位置無法保證,只能靠驗證結(jié)果來決定啦。
翌圣生物作為上游原料企業(yè),在分子酶領(lǐng)域深耕多年,目前已開發(fā)了ARMS-PCR法及TaqMan探針法的SNP分型檢測通用原料,已被下游廠家應(yīng)用于腫瘤伴隨診斷、藥物基因組學(xué)、遺傳病檢測、疾病易感性研究等多個領(lǐng)域。