古詩詞大全網 - 字典詞典 - SIFT :壹個預測氨基酸替代是否影響蛋白功能的工具

SIFT :壹個預測氨基酸替代是否影響蛋白功能的工具

SIFT是預測氨基酸替代是否影響蛋白功能的開放性工具,由A*STAR(Agency?for?Science,?Technology?and?Research)資金贊助,GIS?(Genome?Institue?of?Singapore)Paulien?Ng組維護,BII(Bioinformatics?Institute)支持服務器。

SIFT功能

SIFT根據同源序列,從氨基酸替代中發現有害替代,預測這個氨基酸替代是否會影響表型。SIFT根據蛋白進化與蛋白功能相關的假設,位置對於功能很重要,那麽在蛋白家族比對時,位置應該是保守的,而不重要的位置是多樣化的。

SIFT能夠為您分析哪些問題?

1.?如果您有壹個感興趣的蛋白,希望哪些氨基酸變異會影響蛋白功能。將序列上傳到SIFT,在產生結果分數文件中,有害替代區域會被紅色突出標記,您可以選擇這些區域進行變異。

2.?如果您有單個氨基酸替代的蛋白,在進行功能分析實驗前,SIFT能夠預測哪些變異會影響表型。

SIFT如何進行預測?

SIFT根據壹條待預測序列和多種比對信息,預測這條序列每個位置的無害替代和有害替代。SIFT預測是壹個多步驟過程:1.?搜索類似序列;2.?選擇最相關的序列,與查詢序列具有相似功能;3.?對上步驟選擇的序列進行比對;4.?根據比對結果,計算所有可能的替代是正常的可能性。正常可能性<0.05的位置被預測為有害,正常可能性≥0.05,則預測為無害。

或者,根據保守性進行SIFT預測:在原來版本的SIFT,可以加入任意條序列。現在的版本,用戶設置的序列數量的閾值來限定序列數量。

如果序列預測根據多樣性(低保守閾值),只有在高度保守位置的替代會被預測為有害。如果用於預測的序列之間非常相似(高保守閾值),那麽大多數替代會被預測為有害。

通過對比試驗數據,我們發現替代正常可能性<0.05是有害的,我們把0.05作為預測閾值。我們強烈建議用戶手動檢查替代正常可能性,如果妳的替代正常可能性稍大於0.05,妳可能認為這個替代是有害的。

上傳數據類型

您可以上傳壹條蛋白序列(預測速度慢),或者待預測序列和壹些相關的序列(預測速度快),或者待預測序列與相關序列的比對結果(預測速度更快)。上傳數據類型如下:

1.?壹個NCBI?GI?#

您可以上傳壹個NCBI?GI?#id進行SIFT預測,預測根據提前計算的BLAST搜索和壹分鐘內的反饋信息。

2.?壹條序列

您可以上傳壹條蛋白序列(FASTA格式)與壹組相關的序列。

如果您知道與待預測序列相關的蛋白,妳可以上傳查詢序列和這些相關的序列,這樣計算速度會更快。在上傳的文件中,將待預測序列作為第壹條序列(FASTA格式)。請註意,FASTA序列開頭第壹個字母是特別的。例如,下面的兩條序列。

>A8T644PCSK9?PANTR?PROPROTEIN?CONVERTASE?SUBTILISIN?KEXIN?TYPE?9?OS=PAN?TROGLODYTES

>A8T655PCSK9?PANPA?PROPROTEIN?CONVERTASE?SUBTILISIN?KEXIN?TYPE?9?OS=PAN?PANISCUS

而這兩條序列缺不行,因為它們開頭都是SP,系統無法區分。

>SP?A8T644PCSK9?PANTR?PROPROTEIN?CONVERTASE?SUBTILISIN?KEXIN?TYPE?9?OS=PAN?TROGLODYTES

>SP?A8T655PCSK9?PANPA?PROPROTEIN?CONVERTASE?SUBTILISIN?KEXIN?TYPE?9?OS=PAN?PANISCUS

3.?多重比對結果

若果您有感興趣序列的多重比對結果,能夠以CLUSTAL,?MSF或FASTA格式上傳。您的蛋白序列應該放再文件首位,比對的長度應該與待預測蛋白的長度壹致,待預測的蛋白序列中沒有空位。

4.?替換

SIFT根據分數預測替換是有害還是無害。替換的格式是X#Y,X表示原來的氨基酸,#表示替換的位置,Y表示新氨基酸。每行只能有壹個替換。如下所示。

M1Y

K3S

T4P

SIFT輸出結果

SIFT對替換氨基酸的預測

輸出結果詳細信息

SIFT分數數值範圍0-1,分數≤0.05,預測氨基酸替換是有害的;分數>0.05,則是無害的。

中位數序列信息數值範圍0-4.32,理想情況下,數值範圍是2.75-3.5。中位數序列信息用於衡量預測序列多樣性。如果數值>3.25時,會出現警告,因為這表示這個預測是根據非常相關的序列。

位置的序列數量在預測位置有壹個氨基酸的序列數量。SIFT自動選擇序列,但是如果這個替代位於蛋白序列首或尾,那麽只有壹些序列滿足條件。這欄是預測這方面的。

示例:預測單條蛋白序列

以單條蛋白序列為例,查看SIFT對序列的預測結果。

步驟,

1.?在如下圖位置,粘貼FASTA格式序列壹條蛋白序列。也可以上傳FASTA格式的文件。

2.?設置參數

3.?提交後,等待結果,SIFT預測結果報告如下圖所示,您可以逐壹查看每項結果。您可以根據這些結果,選擇性對某些位置氨基酸進行變異,預測蛋白功能。

(1)這條蛋白序列,每個位置的氨基酸被替代的正常可能性表格,如下圖所示(截取部分)。

上圖中,每行表示參考蛋白中的對應位置,每個位置下面是這條序列的氨基酸。每列表示20種氨基酸中的壹種。每個條目報名壹個氨基酸替換對應的某壹個特定位置的分數,有害替換被紅色突出標註。

(2)位置預測

氨基酸替代是否有害的閾值是0.05。氨基酸顏色說明:黑色表示非極性氨基酸,綠色表示極性不帶電荷的氨基酸,紅色表示堿性氨基酸,藍色表示酸性氨基酸。大寫字母表示氨基酸出現在比對中,小寫字母來自預測。“Seq?Rep”是包括堿性氨基酸的序列片段,短片段表示這個位置要麽有很多空位,要麽因為信息少而不能比對。