復(fù)制轉(zhuǎn)錄翻譯的模板-RNA-seq基礎(chǔ)知識(shí)
日期:2023-03-11 12:39:36 / 人氣: 1181 / 發(fā)布者:成都翻譯公司
id,例如對(duì)于可以翻譯成蛋白的轉(zhuǎn)錄本,都會(huì)以NM_開(kāi)頭如NM_015658;對(duì)于不能翻譯的轉(zhuǎn)錄本,都會(huì)以NR_開(kāi)頭如NR_027055;不同注釋的情況如下圖(ps:注釋的數(shù)據(jù)庫(kù)來(lái)源不一樣,編號(hào)不一樣)gene注釋?zhuān)粚?duì)gene的不同轉(zhuǎn)錄本進(jìn)行注釋?zhuān)话闶穷?lèi)似uc004cpf這樣的名稱(chēng)。單端測(cè)序和雙端測(cè)序
單端測(cè)序只有一個(gè)測(cè)序引物,所以PCR只能沿著這個(gè)引物的方向進(jìn)行,所有的reads只能在一個(gè)方向上讀取。但是,測(cè)序的質(zhì)量會(huì)隨著測(cè)序的進(jìn)行而下降,因此隨著測(cè)序的進(jìn)行,reads會(huì)更加不準(zhǔn)確。一種解決方案是雙端測(cè)序。對(duì)于500 bp的序列,單端測(cè)序的下游質(zhì)量會(huì)很差,但是從兩個(gè)方向測(cè)量250 bp-300 bp,然后將它們拼接在一起可以大大提高測(cè)序。準(zhǔn)確率。雙端測(cè)序接頭的序列更復(fù)雜。首先,要分別進(jìn)行兩個(gè)方向的測(cè)序,需要兩個(gè)不同方向的測(cè)序引物(下圖中的Rd1 SP和Rd2 SP);其次,為了區(qū)分兩個(gè)方向的reads,
雙端測(cè)序中每個(gè)單獨(dú)的Read的長(zhǎng)度是整個(gè)待測(cè)序列的一半以上,因此可以根據(jù)兩個(gè)Reads的重疊部分進(jìn)行拼接
為什么會(huì)有雙端這樣的技術(shù)發(fā)明?
①假設(shè)一個(gè)DNA片段剛好跨越了重復(fù)序列區(qū)(下圖左側(cè))和唯一序列區(qū)(下圖右側(cè))。如果只讀取Single-Read,只會(huì)得到紅色實(shí)線的串口信息,即ATATTATAT。接下來(lái),當(dāng)我們想要將這個(gè)read與參考基因組進(jìn)行比較時(shí),就會(huì)出現(xiàn)一個(gè)問(wèn)題:這個(gè)read是來(lái)自紅色實(shí)線的位置還是紅色虛線的位置?我們可以使用 Paired-end 技術(shù)來(lái)解決這個(gè)問(wèn)題。由于Paired-end read之間的距離是已知的(這里我們?cè)O(shè)置為34bp),我們可以先定位綠色read的位置,正確定位左邊紅色read之間的AT位置,不要誤會(huì)。在紅色虛線位置判斷。如下所示:
②由于單端測(cè)量的錯(cuò)誤率太長(zhǎng),錯(cuò)誤率會(huì)增加,像第一代測(cè)序一樣,可以測(cè)量幾百個(gè)bp的長(zhǎng)度,但序列越晚,條帶越混雜,不清楚。二代測(cè)序也是如此。, 600bp 的單端測(cè)量會(huì)很不準(zhǔn)確,雙端 300bp 測(cè)序會(huì)準(zhǔn)確得多。
路口
序列可能有 4 到 500 bp 長(zhǎng),每邊有 120-150 bp。結(jié)點(diǎn)是雙端測(cè)序中間未檢測(cè)到的區(qū)域。
基因豐度和基因表達(dá)豐度
基因豐度是指基因組中基因的拷貝數(shù)。基因豐度高,也就是這個(gè)基因的數(shù)量多,那么這個(gè)基因的表達(dá)量也可能高,但不一定,主要看基因啟動(dòng)子的強(qiáng)弱。因此,高基因豐度并不意味著高表達(dá)豐度。
高基因表達(dá)豐度意味著基因轉(zhuǎn)錄成更多的mRNA復(fù)制轉(zhuǎn)錄翻譯的模板都相同,進(jìn)而表達(dá)更多的蛋白質(zhì),對(duì)表型的影響更大。
成績(jī)單
轉(zhuǎn)錄本是一種或多種成熟的mRNA復(fù)制轉(zhuǎn)錄翻譯的模板都相同,可以編碼基因轉(zhuǎn)錄形成的蛋白質(zhì),一個(gè)基因可以通過(guò)不同的內(nèi)含子剪接形成不同的轉(zhuǎn)錄本。轉(zhuǎn)錄組由許多轉(zhuǎn)錄本組裝而成。
RNA和DNA測(cè)序的區(qū)別
測(cè)序深度和測(cè)序覆蓋率
對(duì)長(zhǎng)度為100bp的目標(biāo)區(qū)域進(jìn)行測(cè)序:采用單端測(cè)序,每個(gè)read長(zhǎng)度為5bp;共獲得 200 個(gè)讀數(shù);所有reads與target region進(jìn)行比較后,100bp的target region中至少有1個(gè)位置98bp的位置被1個(gè)read覆蓋,也就是說(shuō)剩下的2bp沒(méi)有被1個(gè)read覆蓋。
深度:200 x 5/100 = 10 我們說(shuō)這個(gè)排序的深度是 10X。
覆蓋率:98/100 × 100% = 98% 我們說(shuō)這個(gè)測(cè)序的覆蓋率是98%
測(cè)序深度越高,基因覆蓋率越高。當(dāng)普通人的測(cè)序深度達(dá)到10x時(shí),基因覆蓋率為100%,測(cè)序深度飽和,增加測(cè)序深度沒(méi)有效果。
刀片尺寸
通過(guò)檢測(cè)雙端測(cè)序的起始和終止位置,可以得到插入片段的長(zhǎng)度,從而決定了測(cè)序的長(zhǎng)度。
引物和適配器
提取基因組DNA后,通過(guò)超聲或酶切中斷,然后跑膠,得到300-500 bp的小片段。因?yàn)榇驍嗍请S機(jī)打斷的,可能會(huì)有粘端,所以要用酶來(lái)形成平端。在平端后加入A堿基得到粘端,將接頭加入流通池,進(jìn)行幾輪PCR擴(kuò)增得到測(cè)序文庫(kù)。接頭由三部分組成,依次是與流動(dòng)池結(jié)合的寡聚體、樣品索引和測(cè)序所需的引物預(yù)聚體。
測(cè)序時(shí),先將測(cè)序引物與序列結(jié)合,然后邊合成邊進(jìn)行測(cè)序(接一個(gè)堿基,測(cè)一次,然后進(jìn)行化學(xué)反應(yīng),接上堿基,再測(cè)序,如此循環(huán)下去),然后測(cè)量長(zhǎng)度。, 去掉合成的序列,再加入一個(gè)premer來(lái)測(cè)index,讓每個(gè)read都有一個(gè)index(用來(lái)識(shí)別樣品的來(lái)源),然后進(jìn)行橋式PCR擴(kuò)增,去掉已經(jīng)被測(cè)的序列chain,然后再次測(cè)序。
需要注意的一點(diǎn)是,當(dāng)插入的序列(即被超聲打斷的小片段)比較短,或者文庫(kù)的插入片段短于序列的read長(zhǎng)度時(shí),可能會(huì)測(cè)到premer和index,所以在獲取到數(shù)據(jù)之后,就要去聯(lián)合了。
索引:每個(gè)樣本被索引修改,得到的reads也包含索引。根據(jù)索引可以知道雙端測(cè)序是否來(lái)自同一個(gè)樣本。
特定鏈庫(kù)
正鏈/負(fù)鏈:對(duì)于基因來(lái)說(shuō),兩條DNA鏈之一作為RNA合成的模板。這條鏈稱(chēng)為負(fù)鏈(模板鏈/反義鏈),另一條稱(chēng)為正鏈(非模板鏈/正義鏈)。
反義鏈/有義鏈:在雙鏈DNA中,用于轉(zhuǎn)錄mRNA的DNA鏈稱(chēng)為模板鏈,不用于轉(zhuǎn)錄的鏈稱(chēng)為非模板鏈。根據(jù)堿基互補(bǔ)配對(duì)原理,轉(zhuǎn)錄的mRNA鏈的堿基序列與非模板鏈的堿基序列相同。唯一的區(qū)別是非模板鏈中的T被mRNA鏈中的U取代,因此非模板鏈也稱(chēng)為編碼鏈或有義鏈。
鏈特異性:鏈特異性構(gòu)建了一個(gè)庫(kù),可以確定轉(zhuǎn)錄物是來(lái)自正鏈還是負(fù)鏈。以獲得更準(zhǔn)確的基因結(jié)構(gòu)和基因表達(dá)信息。并且可以更好地發(fā)現(xiàn)新基因。(研究表明,許多基因組區(qū)域都有轉(zhuǎn)錄的正鏈和負(fù)鏈。反義轉(zhuǎn)錄是真核基因的一個(gè)特征,也是一種重要的調(diào)控方式。對(duì)于原核和低等真核生物的基因組,往往存在重疊基因。
為什么Illumina限制了合成鏈的長(zhǎng)度,不能像Sanger法那樣長(zhǎng)到1k?
原因在于二代測(cè)序的額外PCR過(guò)程:每個(gè)位點(diǎn)都要進(jìn)行多次測(cè)試。例如,一段時(shí)間后通過(guò)PCR得到的每個(gè)簇包含200個(gè)相同的序列,因此需要檢查這200個(gè)序列。序列的相同位點(diǎn)被測(cè)序。
在第一輪中,我們將測(cè)試第一個(gè)位置(假設(shè)位置 1 是 A)。正常情況下,200個(gè)序列應(yīng)該加A堿基,可惜只有199個(gè)在1位加了A堿基。1個(gè)序列沒(méi)加,所以有199個(gè)紅色和1個(gè)灰色【當(dāng)然還是沒(méi)有影響】;
第二輪(假設(shè)位置2為G),每個(gè)人都要加G來(lái)測(cè)量果嶺,但是前一個(gè)沒(méi)有加A,而且他要彌補(bǔ)之前的錯(cuò)誤,所以在給其他序列加G的時(shí)候,就加了加了上次應(yīng)該加的A,就變紅了。這種紅色在一大群綠色中以噪音的形式存在。依次向下,測(cè)序長(zhǎng)度越長(zhǎng),噪聲信號(hào)越多,標(biāo)準(zhǔn)信號(hào)和噪聲信號(hào)可能各減半。這樣系統(tǒng)就無(wú)法判斷,只能給出N,如果N太多,后續(xù)的分析處理就會(huì)很麻煩。去丟數(shù)據(jù),不去,又是多余的。
基因注釋
① RefSeq 基因注釋?zhuān)粊?lái)自 NCBI,注釋基因的不同轉(zhuǎn)錄本。一個(gè)轉(zhuǎn)錄本對(duì)應(yīng)一個(gè)數(shù)字并成為 RefSeq id。例如,可以翻譯成蛋白質(zhì)的轉(zhuǎn)錄本會(huì)以NM_開(kāi)頭,例如NM_015658;對(duì)于不可翻譯的成績(jī)單,的成績(jī)單,會(huì)以NR_開(kāi)頭,比如NR_027055;不同注解的情況如下圖(ps:注解庫(kù)來(lái)源不同,數(shù)量不同)
②Ensembl annotation:對(duì)基因的不同轉(zhuǎn)錄本進(jìn)行注釋。以 ENSG 開(kāi)頭的 Ensembl gene_id 表示 Ensembl gene_id,例如 ENSG,Ensembl 轉(zhuǎn)錄本 id 以 ENST 開(kāi)頭表示 Ensembl 轉(zhuǎn)錄本 id,例如 ENST。
③ UCSC 基因注釋?zhuān)簩?duì)基因的不同轉(zhuǎn)錄本進(jìn)行注釋?zhuān)ǔCQ(chēng)類(lèi)似于uc004cpf。
反向互補(bǔ)序列的含義
生物DNA序列有兩條鏈。雖然網(wǎng)站在查看基因組序列時(shí)一般都會(huì)提供正向鏈,但不同基因在基因組序列中的轉(zhuǎn)錄起始方向是不同的。有的基因在等待,有的則是停留在相反的方向。當(dāng)需要查看轉(zhuǎn)錄方向與正向鏈相反的基因的序列時(shí),如果要查找該基因的啟動(dòng)子(ATG),則需要查看正向鏈的反向互補(bǔ)序列。
此外,從基因組中擴(kuò)增序列時(shí),需要同時(shí)設(shè)計(jì)兩條鏈的引物。這時(shí)候還需要正向序列和反向互補(bǔ)序列。
有許多基因調(diào)控同時(shí)作用于兩條鏈。反向互補(bǔ)序列是根據(jù)另一條鏈的信息計(jì)算一條鏈的信息。
軌跡
基因座可以是基因、基因的一部分,也可以是具有一定調(diào)控作用的DNA序列。基因座是染色體上的固定位置,編碼相同基因座的相同DNA稱(chēng)為等位基因。同一基因座的相同等位基因是純合子,同一基因座的不同等位基因是雜合子。
基因異構(gòu)體
亞型/同種型可以理解為基因的不同形式,即同一基因座產(chǎn)生的mRNA。轉(zhuǎn)錄起始位點(diǎn)(TSS)、編碼蛋白序列和非翻譯區(qū)存在差異。間接改變了基因的功能。
圖中1、2、3為mRNA的三個(gè)外顯子。由于連接方法不同,產(chǎn)生了三種同工型。
基因異構(gòu)體
可變剪切
大多數(shù)真核基因轉(zhuǎn)錄產(chǎn)生的mRNA前體,一般都是以一種方式剪接產(chǎn)生一種mRNA,結(jié)果只產(chǎn)生一種蛋白質(zhì)。然而,一些基因產(chǎn)生的mRNA前體可以通過(guò)不同的方式拼接產(chǎn)生兩種以上的mRNA。
編碼蛋白質(zhì)的成熟 mRNA 是已剪接的前體 mRNA。外顯子可以按其線性順序拼接,內(nèi)含子可以保留而不被切除。因此,成熟mRNA中不一定存在每個(gè)外顯子和內(nèi)含子。
有5種類(lèi)型:外顯子跳躍、內(nèi)含子保留、3、 5'端可變剪接、3'端可變剪接、特定外顯子可變剪接(如第一個(gè)或*后一個(gè)外顯子)。
普通翻譯
外顯子跳躍
3'可變剪裁
5'可變剪裁
分析的障礙
(1)衡量標(biāo)準(zhǔn):為了比較誰(shuí)多誰(shuí)少,一般采用相對(duì)定量的分析方法。但是,相同的絕對(duì)量對(duì)于不同的基數(shù)會(huì)有不同的相對(duì)值。例如,第一次A和B基因在第二次測(cè)量中的表達(dá)水平為10,那么此時(shí)A基因的豐度為10/(10+10)=50%;A、B、C的表達(dá)量在第二次測(cè)量中是 10 ,那么這次A的豐度變成了33.3%,但是能不能說(shuō)第二次A基因表達(dá)的豐度比第一次低呢?所以,只看表面數(shù)字,并不能反映實(shí)際問(wèn)題。
(2)測(cè)量方法:目前用于轉(zhuǎn)錄組測(cè)序的二代測(cè)序仍然測(cè)量一小部分DNA。由于可變剪切,一般都會(huì)去除內(nèi)含子,拼接不同的外顯子,但畢竟它們“同門(mén)研究”,所以得到的成績(jī)單是相似的,就像由1、2組成的成績(jī)單a和由1、3組成的成績(jī)單b都包含3,所以你必須是更多很難將一個(gè)短段落與原始抄本進(jìn)行比較(例如,如果一個(gè)閱讀滿(mǎn)足 3 的一小部分,那么這個(gè)閱讀屬于抄本 a 還是抄本 b?)
(3)測(cè)量對(duì)象:mRNA不如DNA穩(wěn)定,容易降解,因此其豐度一直在變化。因此,測(cè)量轉(zhuǎn)錄組之前需要這個(gè)時(shí)間節(jié)點(diǎn),以確保觀察到變化,而這個(gè)變化與實(shí)驗(yàn)條件是相關(guān)的。一般來(lái)說(shuō),為了證明這一點(diǎn),需要對(duì)處于一種狀態(tài)的樣品進(jìn)行多次測(cè)量,即做的重復(fù)。差異基因的測(cè)定還必須通過(guò)duplication,即在一個(gè)條件下多次重復(fù)得到的值,標(biāo)準(zhǔn)條件下多次重復(fù)的值存在差異,所以認(rèn)為這個(gè)差異基因是有效的。建議至少設(shè)置3次重復(fù),并且五更好。
切感對(duì)比
有許多測(cè)序讀數(shù)來(lái)自?xún)蓚€(gè)外顯子的連接處(即剪接位點(diǎn))。如果要比較參考基因組,則必須在讀數(shù)中間添加一個(gè)缺口(即原始內(nèi)含子)。就相當(dāng)于原來(lái)的reads踩著兩條船,現(xiàn)在兩條船要回家了,reads的腿要開(kāi)始裂了。因此,比較軟件必須考慮到這一點(diǎn),并在讀取比較中間允許較大的間隙。
批量效果
對(duì)不同芯片、不同測(cè)序儀、不同測(cè)序通道或不同時(shí)間點(diǎn)采集的mRNA進(jìn)行測(cè)序,即使是相同的mRNA也會(huì)導(dǎo)致測(cè)序得到的基因表達(dá)量存在較大差異,這就是批量效應(yīng)。
短讀長(zhǎng):測(cè)序得到的*大讀長(zhǎng)為500 bp,常見(jiàn)的序列片段長(zhǎng)度為100-300 bp。
Long-read long read length:測(cè)序得到的reads超過(guò)1000bp,代表全長(zhǎng)或接近全長(zhǎng)的mRNA。
直接 RNA 測(cè)序 (dRNA-seq):一種直接對(duì) RNA 而非 cDNA 進(jìn)行測(cè)序的測(cè)序技術(shù)。它通常用于對(duì)全長(zhǎng)或接近全長(zhǎng)的 mRNA 進(jìn)行測(cè)序。
多映射讀數(shù):從轉(zhuǎn)錄組的同源區(qū)域測(cè)序的讀數(shù)不能準(zhǔn)確確認(rèn)轉(zhuǎn)錄本或基因組的來(lái)源。
Synthetic long read:Synthetic long read:一種通過(guò)組裝多個(gè)短讀獲得長(zhǎng)讀的方法。
唯一分子標(biāo)識(shí)符 (UMI):在擴(kuò)增前構(gòu)建 RNA-seq 文庫(kù)時(shí)添加的短序列或條形碼。理想情況下,每個(gè)轉(zhuǎn)錄本都與一個(gè)唯一標(biāo)識(shí)符相結(jié)合。包含此標(biāo)識(shí)符的讀數(shù)來(lái)自此轉(zhuǎn)錄本僅在定量期間計(jì)算一次??捎糜诮档蚏NA-seq的數(shù)量偏好,特別適用于低初始RNA的單細(xì)胞實(shí)驗(yàn)。
讀取長(zhǎng)度:?jiǎn)蝹€(gè)測(cè)序讀取的長(zhǎng)度。短讀長(zhǎng)RNA測(cè)序得到的長(zhǎng)度通常為50-150 bp。
靈敏度:將檢測(cè)到樣本中轉(zhuǎn)錄物的百分比,靈敏度越高,比率越高。它受樣品處理、文庫(kù)制備、測(cè)序和計(jì)算偏好的影響。
特異性:一種測(cè)量被正確識(shí)別的差異表達(dá)轉(zhuǎn)錄本比例的方法,受樣品處理、文庫(kù)制備、測(cè)序和計(jì)算偏好的影響。
重復(fù)率 重復(fù)率:與轉(zhuǎn)錄組中相同位置對(duì)齊的測(cè)序讀數(shù)的比率。在 RNA-seq 文庫(kù)中,一些轉(zhuǎn)錄本可能具有高重復(fù)率,因?yàn)樗鼈冊(cè)跇颖局械谋磉_(dá)水平很高。高表達(dá)的基因具有高重復(fù)率,而低表達(dá)的基因可能具有*小的重復(fù)率。因此,RNA-seq 面臨著挑戰(zhàn)。該技術(shù)中的大多數(shù)重復(fù)可能是來(lái)自高表達(dá)轉(zhuǎn)錄本的真實(shí)信號(hào),而其他重復(fù)則是由于擴(kuò)增和測(cè)序偏好。
生物重復(fù):多次檢測(cè)不同生物來(lái)源的樣本,如三個(gè)個(gè)體的組織,用于捕捉生物個(gè)體自身的變化;這種變化要么是要研究的對(duì)象,要么是噪音。相比之下,技術(shù)重復(fù)是對(duì)同一樣本的重復(fù)操作——例如,對(duì)一個(gè)組織進(jìn)行三種處理。
摻入對(duì)照內(nèi)參:以特定濃度添加到樣品中的外源核酸文庫(kù)。它們通常是不同濃度的預(yù)合成 RNA,用于監(jiān)測(cè)反應(yīng)效率和技術(shù)方法偏差以及假陰性結(jié)果。
Translatome 翻譯組:在細(xì)胞、組織或生物體中被翻譯成蛋白質(zhì)的 mRNA 的集合。
結(jié)構(gòu)組結(jié)構(gòu)組:細(xì)胞、組織或生物體中 RNA 的二級(jí)和三級(jí)結(jié)構(gòu)的集合。
Interactome 相互作用組:細(xì)胞、組織和生物體中分子相互作用的集合,包括 RNA-RNA 或 RNA-蛋白質(zhì)相互作用。
相關(guān)閱讀Relate
熱門(mén)文章 Recent
- 海德堡大學(xué)學(xué)位證書(shū)翻譯模板 申請(qǐng)德國(guó)海德堡大學(xué)的條件2023-03-11
- 中專(zhuān)畢業(yè)證書(shū)標(biāo)準(zhǔn)翻譯模板 中英文成績(jī)單2023-03-11
- 外貿(mào)翻譯簡(jiǎn)歷模板 外貿(mào)開(kāi)發(fā)個(gè)人簡(jiǎn)歷2023-03-11
- 考研英語(yǔ)作文模板翻譯 翻譯碩士(MTI)考研英語(yǔ)大作文范文2023-03-11
- 本科畢業(yè)證書(shū)翻譯模板框架 學(xué)士學(xué)位證書(shū)及本科畢業(yè)證英文翻譯模板2023-03-11
- 酒店指南翻譯模板 Maryville康威美國(guó)*佳價(jià)值旅館2023-03-11
- 杭州戶(hù)口本翻譯模板 戶(hù)口本翻譯蓋章_集體戶(hù)口薄翻譯_戶(hù)籍簽證翻譯蓋章2023-03-11
- 計(jì)算機(jī)英語(yǔ)求職信模板加翻譯 商務(wù)英語(yǔ)求職自薦信范文模板2023-03-11
- 翻譯實(shí)習(xí)生證明模板-翻譯專(zhuān)業(yè)實(shí)習(xí)總結(jié)3000字模板2023-03-11
- 高中畢業(yè)證成績(jī)單翻譯模板下載 高中畢業(yè)證 英語(yǔ)翻譯高中畢業(yè)證英文翻譯2023-03-11