SIFT ：壹個預測氨基酸替代是否影響蛋白功能的工具

SIFT是預測氨基酸替代是否影響蛋白功能的開放性工具，由A*STAR（Agency?for?Science,?Technology?and?Research）資金贊助，GIS?（Genome?Institue?of?Singapore）Paulien?Ng組維護，BII（Bioinformatics?Institute）支持服務器。

SIFT功能

SIFT根據同源序列，從氨基酸替代中發現有害替代，預測這個氨基酸替代是否會影響表型。SIFT根據蛋白進化與蛋白功能相關的假設，位置對於功能很重要，那麽在蛋白家族比對時，位置應該是保守的，而不重要的位置是多樣化的。

SIFT能夠為您分析哪些問題？

1.?如果您有壹個感興趣的蛋白，希望哪些氨基酸變異會影響蛋白功能。將序列上傳到SIFT，在產生結果分數文件中，有害替代區域會被紅色突出標記，您可以選擇這些區域進行變異。

2.?如果您有單個氨基酸替代的蛋白，在進行功能分析實驗前，SIFT能夠預測哪些變異會影響表型。

SIFT如何進行預測？

SIFT根據壹條待預測序列和多種比對信息，預測這條序列每個位置的無害替代和有害替代。SIFT預測是壹個多步驟過程：1.?搜索類似序列；2.?選擇最相關的序列，與查詢序列具有相似功能；3.?對上步驟選擇的序列進行比對；4.?根據比對結果，計算所有可能的替代是正常的可能性。正常可能性＜0.05的位置被預測為有害，正常可能性≥0.05，則預測為無害。

或者，根據保守性進行SIFT預測：在原來版本的SIFT，可以加入任意條序列。現在的版本，用戶設置的序列數量的閾值來限定序列數量。

如果序列預測根據多樣性（低保守閾值），只有在高度保守位置的替代會被預測為有害。如果用於預測的序列之間非常相似（高保守閾值），那麽大多數替代會被預測為有害。

通過對比試驗數據，我們發現替代正常可能性＜0.05是有害的，我們把0.05作為預測閾值。我們強烈建議用戶手動檢查替代正常可能性，如果妳的替代正常可能性稍大於0.05，妳可能認為這個替代是有害的。

上傳數據類型

您可以上傳壹條蛋白序列（預測速度慢），或者待預測序列和壹些相關的序列（預測速度快），或者待預測序列與相關序列的比對結果（預測速度更快）。上傳數據類型如下：

1.?壹個NCBI?GI?#

您可以上傳壹個NCBI?GI?#id進行SIFT預測，預測根據提前計算的BLAST搜索和壹分鐘內的反饋信息。

2.?壹條序列

您可以上傳壹條蛋白序列（FASTA格式）與壹組相關的序列。

如果您知道與待預測序列相關的蛋白，妳可以上傳查詢序列和這些相關的序列，這樣計算速度會更快。在上傳的文件中，將待預測序列作為第壹條序列（FASTA格式）。請註意，FASTA序列開頭第壹個字母是特別的。例如，下面的兩條序列。

>A8T644PCSK9?PANTR?PROPROTEIN?CONVERTASE?SUBTILISIN?KEXIN?TYPE?9?OS=PAN?TROGLODYTES

>A8T655PCSK9?PANPA?PROPROTEIN?CONVERTASE?SUBTILISIN?KEXIN?TYPE?9?OS=PAN?PANISCUS

而這兩條序列缺不行，因為它們開頭都是SP，系統無法區分。

>SP?A8T644PCSK9?PANTR?PROPROTEIN?CONVERTASE?SUBTILISIN?KEXIN?TYPE?9?OS=PAN?TROGLODYTES

>SP?A8T655PCSK9?PANPA?PROPROTEIN?CONVERTASE?SUBTILISIN?KEXIN?TYPE?9?OS=PAN?PANISCUS

3.?多重比對結果

若果您有感興趣序列的多重比對結果，能夠以CLUSTAL,?MSF或FASTA格式上傳。您的蛋白序列應該放再文件首位，比對的長度應該與待預測蛋白的長度壹致，待預測的蛋白序列中沒有空位。

4.?替換

SIFT根據分數預測替換是有害還是無害。替換的格式是X#Y，X表示原來的氨基酸，#表示替換的位置，Y表示新氨基酸。每行只能有壹個替換。如下所示。

M1Y

K3S

T4P

SIFT輸出結果

SIFT對替換氨基酸的預測

輸出結果詳細信息

SIFT分數數值範圍0-1，分數≤0.05，預測氨基酸替換是有害的；分數＞0.05，則是無害的。

中位數序列信息數值範圍0-4.32，理想情況下，數值範圍是2.75-3.5。中位數序列信息用於衡量預測序列多樣性。如果數值＞3.25時，會出現警告，因為這表示這個預測是根據非常相關的序列。

位置的序列數量在預測位置有壹個氨基酸的序列數量。SIFT自動選擇序列，但是如果這個替代位於蛋白序列首或尾，那麽只有壹些序列滿足條件。這欄是預測這方面的。

示例：預測單條蛋白序列

以單條蛋白序列為例，查看SIFT對序列的預測結果。

步驟，

1.?在如下圖位置，粘貼FASTA格式序列壹條蛋白序列。也可以上傳FASTA格式的文件。

2.?設置參數

3.?提交後，等待結果，SIFT預測結果報告如下圖所示，您可以逐壹查看每項結果。您可以根據這些結果，選擇性對某些位置氨基酸進行變異，預測蛋白功能。

（1）這條蛋白序列，每個位置的氨基酸被替代的正常可能性表格，如下圖所示（截取部分）。

上圖中，每行表示參考蛋白中的對應位置，每個位置下面是這條序列的氨基酸。每列表示20種氨基酸中的壹種。每個條目報名壹個氨基酸替換對應的某壹個特定位置的分數，有害替換被紅色突出標註。

（2）位置預測

氨基酸替代是否有害的閾值是0.05。氨基酸顏色說明：黑色表示非極性氨基酸，綠色表示極性不帶電荷的氨基酸，紅色表示堿性氨基酸，藍色表示酸性氨基酸。大寫字母表示氨基酸出現在比對中，小寫字母來自預測。“Seq?Rep”是包括堿性氨基酸的序列片段，短片段表示這個位置要麽有很多空位，要麽因為信息少而不能比對。