SIFT功能
SIFT根據同源序列,從氨基酸替代中發現有害替代,預測這個氨基酸替代是否會影響表型。SIFT根據蛋白進化與蛋白功能相關的假設,位置對於功能很重要,那麽在蛋白家族比對時,位置應該是保守的,而不重要的位置是多樣化的。
SIFT能夠為您分析哪些問題?
1.?如果您有壹個感興趣的蛋白,希望哪些氨基酸變異會影響蛋白功能。將序列上傳到SIFT,在產生結果分數文件中,有害替代區域會被紅色突出標記,您可以選擇這些區域進行變異。
2.?如果您有單個氨基酸替代的蛋白,在進行功能分析實驗前,SIFT能夠預測哪些變異會影響表型。
SIFT如何進行預測?
SIFT根據壹條待預測序列和多種比對信息,預測這條序列每個位置的無害替代和有害替代。SIFT預測是壹個多步驟過程:1.?搜索類似序列;2.?選擇最相關的序列,與查詢序列具有相似功能;3.?對上步驟選擇的序列進行比對;4.?根據比對結果,計算所有可能的替代是正常的可能性。正常可能性<0.05的位置被預測為有害,正常可能性≥0.05,則預測為無害。
或者,根據保守性進行SIFT預測:在原來版本的SIFT,可以加入任意條序列。現在的版本,用戶設置的序列數量的閾值來限定序列數量。
如果序列預測根據多樣性(低保守閾值),只有在高度保守位置的替代會被預測為有害。如果用於預測的序列之間非常相似(高保守閾值),那麽大多數替代會被預測為有害。
通過對比試驗數據,我們發現替代正常可能性<0.05是有害的,我們把0.05作為預測閾值。我們強烈建議用戶手動檢查替代正常可能性,如果妳的替代正常可能性稍大於0.05,妳可能認為這個替代是有害的。
上傳數據類型
您可以上傳壹條蛋白序列(預測速度慢),或者待預測序列和壹些相關的序列(預測速度快),或者待預測序列與相關序列的比對結果(預測速度更快)。上傳數據類型如下:
1.?壹個NCBI?GI?#
您可以上傳壹個NCBI?GI?#id進行SIFT預測,預測根據提前計算的BLAST搜索和壹分鐘內的反饋信息。
2.?壹條序列
您可以上傳壹條蛋白序列(FASTA格式)與壹組相關的序列。
如果您知道與待預測序列相關的蛋白,妳可以上傳查詢序列和這些相關的序列,這樣計算速度會更快。在上傳的文件中,將待預測序列作為第壹條序列(FASTA格式)。請註意,FASTA序列開頭第壹個字母是特別的。例如,下面的兩條序列。
>A8T644PCSK9?PANTR?PROPROTEIN?CONVERTASE?SUBTILISIN?KEXIN?TYPE?9?OS=PAN?TROGLODYTES
>A8T655PCSK9?PANPA?PROPROTEIN?CONVERTASE?SUBTILISIN?KEXIN?TYPE?9?OS=PAN?PANISCUS
而這兩條序列缺不行,因為它們開頭都是SP,系統無法區分。
>SP?A8T644PCSK9?PANTR?PROPROTEIN?CONVERTASE?SUBTILISIN?KEXIN?TYPE?9?OS=PAN?TROGLODYTES
>SP?A8T655PCSK9?PANPA?PROPROTEIN?CONVERTASE?SUBTILISIN?KEXIN?TYPE?9?OS=PAN?PANISCUS
3.?多重比對結果
若果您有感興趣序列的多重比對結果,能夠以CLUSTAL,?MSF或FASTA格式上傳。您的蛋白序列應該放再文件首位,比對的長度應該與待預測蛋白的長度壹致,待預測的蛋白序列中沒有空位。
4.?替換
SIFT根據分數預測替換是有害還是無害。替換的格式是X#Y,X表示原來的氨基酸,#表示替換的位置,Y表示新氨基酸。每行只能有壹個替換。如下所示。
M1Y
K3S
T4P
SIFT輸出結果
SIFT對替換氨基酸的預測
輸出結果詳細信息
SIFT分數數值範圍0-1,分數≤0.05,預測氨基酸替換是有害的;分數>0.05,則是無害的。
中位數序列信息數值範圍0-4.32,理想情況下,數值範圍是2.75-3.5。中位數序列信息用於衡量預測序列多樣性。如果數值>3.25時,會出現警告,因為這表示這個預測是根據非常相關的序列。
位置的序列數量在預測位置有壹個氨基酸的序列數量。SIFT自動選擇序列,但是如果這個替代位於蛋白序列首或尾,那麽只有壹些序列滿足條件。這欄是預測這方面的。
示例:預測單條蛋白序列
以單條蛋白序列為例,查看SIFT對序列的預測結果。
步驟,
1.?在如下圖位置,粘貼FASTA格式序列壹條蛋白序列。也可以上傳FASTA格式的文件。
2.?設置參數
3.?提交後,等待結果,SIFT預測結果報告如下圖所示,您可以逐壹查看每項結果。您可以根據這些結果,選擇性對某些位置氨基酸進行變異,預測蛋白功能。
(1)這條蛋白序列,每個位置的氨基酸被替代的正常可能性表格,如下圖所示(截取部分)。
上圖中,每行表示參考蛋白中的對應位置,每個位置下面是這條序列的氨基酸。每列表示20種氨基酸中的壹種。每個條目報名壹個氨基酸替換對應的某壹個特定位置的分數,有害替換被紅色突出標註。
(2)位置預測
氨基酸替代是否有害的閾值是0.05。氨基酸顏色說明:黑色表示非極性氨基酸,綠色表示極性不帶電荷的氨基酸,紅色表示堿性氨基酸,藍色表示酸性氨基酸。大寫字母表示氨基酸出現在比對中,小寫字母來自預測。“Seq?Rep”是包括堿性氨基酸的序列片段,短片段表示這個位置要麽有很多空位,要麽因為信息少而不能比對。