深度學習給生物學帶來了哪些變化？

深度學習研究及其在生物醫學領域的潛在應用

深度學習已經在各種生物應用中取得了成功。在本節中，我們回顧了深度學習在各個研究領域中的挑戰和機遇，如果可能的話，還回顧了將深度學習應用於這些問題的研究(表1)。我們首先回顧了生物標記發展的重要領域，包括基因組學、轉錄組學、蛋白質基因組學、結構生物學和化學。然後，我們回顧了藥物發現和再利用的前景，包括多平臺數據的使用。

生物標記。生物醫學的壹個重要任務是將生物數據轉化為反映表型和身體狀態(如疾病)的有效生物標誌物。生物標記對於評估臨床試驗的結果很重要。識別敏感和特異的生物標誌物是現代轉化醫學的巨大挑戰。計算生物學是生物標記發展。事實上，從基因組學到蛋白質組學，任何數據源都可以使用；這些將在下壹節討論。

基因組學。下壹代測序(NGS)技術已經允許產生大量的基因組數據。這些數據的大部分分析可以通過現代計算方法在計算機上進行。這包括基因組的結構註釋(包括非編碼調控序列、蛋白質結合位點預測和剪接位點)。

基因組學的壹個重要分支是宏基因組學，也稱為環境、生態基因組學或群落基因組學。NGS技術揭示了未培養微生物的天然多樣性，這在以前沒有得到充分的研究。

在宏基因組學中有幾個生物信息學的挑戰。壹個主要的挑戰是序列數據的功能分析和物種多樣性的分析。深度信念網絡和遞歸神經網絡的使用已經允許宏基因組pH數據和人類微生物組數據的表型分類。與基線方法相比，這些方法沒有像強化學習那樣提高分類精度，但是提供了學習數據集的分層表示的能力。

深度學習在處理高維矩陣轉錄組數據方面也取得了壹定的成功。在另壹種方法中，提取基因表達的特征以及不編碼轉錄物如miRNA的區域；這是通過使用深度信念網絡和主動學習來實現的，其中深度學習特征提取器用於降低六個癌癥數據集的維度，並且優於基本特征選擇方法[27]。主動學習和分類的應用提高了準確性，並允許選擇癌癥相關特征(改進的癌癥分類)，而不僅僅是基於基因表達譜。使用miRNA數據的特征選擇是利用與先前選擇的特征子集的目標基因的關系來實現的。

在另壹個深度學習應用中，Fakoor等人用自編碼器網絡將其推廣，並使用從不同類型的微陣列平臺(Affimetrix家族)獲得的不同基因集的微陣列基因表達數據將其應用於癌癥分類[28]。他們將PCA與無監督的非線性稀疏特征學習(通過自動編碼器)相結合，使用降維來構建用於微陣列數據壹般分類的特征。癌癥和非癌癥細胞的分類結果顯示了重要的改進，尤其是監督微調的使用，使得特征不太通用，但即使對於沒有跨平臺標準化的數據，也可以獲得更高的分類精度。自動編碼器的全局泛化能力有助於不同微陣列技術收集的數據，因此對公共領域的數據進行大規模綜合分析可能是有前途的。

圖像處理應用。基因表達也可以以視覺形式儲存為圖像，例如來自微陣列的圖像熒光信號或RNA原位雜交熒光或放射性信號。在壹些應用中，以其出色的圖像處理性能而聞名的CNN已經顯示出改善這些圖像分析的潛力。

在微陣列分析中，由於斑點大小、形狀、位置或信號強度的變化，檢測信號和識別熒光斑點可能具有挑戰性，並且熒光信號強度通常對應於基因或序列表達水平的差異。在深度學習技術對該問題的壹個應用中，使用CNN進行微陣列圖像分割，並且它在精度上顯示出與基準方法相似的精度，但是訓練更簡單並且需要更少的計算資源。[29]

將CNN應用於基於圖像的基因表達數據的另壹個機會是RNA原位雜交，這是壹項繁瑣的技術。當這種操作被允許時，基因表達可以在壹組細胞、組織切片或整個有機體中被定位和可視化。這種方法促進了強有力的縱向研究，並解釋了發展過程中表達模式的變化。用於構建詳細的艾倫發育小鼠腦圖譜，其中包含2000多個基因表達圖譜，每個基因在多個腦部分進行描述。過去，這些手動註釋既耗時又昂貴，有時還不準確。但最近曾等人使用深度預訓練CNN進行自動標註[30]。為此，神經網絡模型在沒有關於坐標的確切信息(空間信息)的情況下，在原始自然原位雜交圖像的不同層次上訓練發展中國家的大腦；這項技術在四個發展階段的多個大腦水平上實現了出色的準確性。

編輯。深度學習的另壹個應用領域是拼接。剪接是真核生物提供蛋白質多樣性的主要因素之壹。另外，最近的研究顯示了“剪接密碼”與各種疾病的聯系[31]。然而，現代科學仍然不能完全理解控制剪接調控的機制。剪接調控的現代概念包括轉錄水平、特定信號調控序列元件(剪接增強子或沈默子)的存在、剪接位點的結構和剪接因子的狀態(例如特定位點的磷酸化可能改變剪接因子的活性)。所有這些因素使分析變得復雜，因為有大量的元素和它們之間復雜的非線性相互作用。現有的鑲嵌預測軟件需要高通量測序數據作為輸入，並且面臨著原始讀數比常規基因短，基因組中重復水平高和存在假基因的問題。因此，縫合機制的分析算法非常慢，並且需要高度組合的計算資源，而深度學習可能會在這方面提供改進。在壹個使用五個組織特異性RNA-seq數據集的深度學習應用中，通過使用基因組序列和組織類型中特征的隱藏變量開發了DNN，並被證明在預測個體內和組織間組織剪接外顯子剪接的轉錄本百分比變化方面優於貝葉斯方法(剪接代碼度量)[32]。

非編碼RNA非編碼RNA是生物學的另壹個問題，需要復雜的計算方法，比如深度學習。非編碼RNA非常重要，涉及轉錄、翻譯和表觀遺傳學的調控[33]，但仍難以與編碼蛋白質的RNA區分。對於短的非編碼RNA來說，這個任務已經很好的解決了，但是對於lncRNA來說還是相當有挑戰性的。LncRNAs是異質的，可能包含壹個假定的復制起點(ORF)和短的蛋白樣序列。壹種新的深度學習方法，稱為lncRNAMFDL，被開發用於識別lnc-RNAs，使用orf，K個相鄰堿基，二級結構和預測的編碼域序列。該方法使用從Gencode(lncRNA)和Refseq(蛋白質編碼的mRNA數據)的序列數據中提取的五個獨立特征，並在人類數據集中產生97.1%的預測準確度。

表達性狀的基因位點分析。最後，數量性狀位點(QTL)分析有進壹步研究的潛力。QTL分析鑒定包含導致復雜多基因性狀(如體重、藥物反應、免疫反應)表型變異的多態性的基因座。顯示遺傳變異的壹個這樣的“特征”是在給定的組織和/或條件下任何給定基因的表達或轉錄豐度。表達QTL(eQTL)是壹個影響轉錄本豐度的遺傳變異位點。EQTL分析導致了對人類基因表達調控的深入了解，但它面臨著許多挑戰。局部調節表達的EQTL(順式-eQTL)相對容易通過有限數量的統計測試來識別，但調節基因組其他部分基因表達的反式-eQTL更難檢測。最近，壹種深度學習方法MASSQTL[35]被提出，用於使用各種編碼的生物特征來解決trans-eQTL預測問題，如物理蛋白質相互作用網絡、基因註釋、進化保守性、局部序列信息和來自ENCODE項目的不同功能元件。DNN優於其他機器學習模型，通過使用來自各自交叉驗證折疊的九個DNN模型，並為基因表達的調控框架提供了壹種新的機制。深度解碼系統還用於對trans-eQTL特征向量進行聚類，然後通過t-SNE降維技術進行可視化。

蛋白質組學。與轉錄組學相比，蛋白質基因組學是壹個相當不發達的研究領域，數據少，分析的計算方法少。即使存在類似的信號編碼和傳輸機制，但人類蛋白質組學數據的缺乏以及將模式生物的結果轉化到人類的困難使分析變得復雜。

深度學習可以在許多方面使蛋白質組學受益，因為壹些方法不需要像其他機器學習算法那樣多的訓練案例。深度學習方法的其他優點是，它們建立了數據的分層表示，並從復雜的相互作用中學習壹般特征，這有利於蛋白質組學和蛋白質中的網絡分析。例如，使用磷酸化數據，雙峰深度信念網絡已用於預測大鼠細胞對相同刺激的細胞反應[36]。與傳統的流水線相比，所開發的算法達到了相當高的精度。

結構生物學和化學。結構生物學包括蛋白質折疊分析、蛋白質動力學、分子建模和藥物設計。二級和三級結構是蛋白質和RNA分子的重要特征。對於蛋白質來說，正確的結構確定對於預測酶的功能、催化中心和底物之間結合的形成、免疫功能(抗原結合)、轉錄因子(DNA結合)和轉錄後修飾(RNA結合)都很重要。失去適當的結構將導致功能喪失，在某些情況下，將導致異常的蛋白質聚集，這可能導致神經退行性疾病，如阿爾茨海默病或帕金森病。[37]

基於化合物同源性的比較建模是壹種預測蛋白質二級結構的可能方法，但它受到良好註釋的化合物數量的限制。另壹方面，機器學習從頭預測是基於具有眾所周知結構的化合物的識別模式，但它不夠準確，無法在實踐中使用。使用從零開始的深度學習方法，利用蛋白質測序數據改進結構預測[38]。類似地，深度學習已經被應用於使用星體數據庫數據和復雜的三階段方法來預測二級結構元件和氨基酸殘基之間的接觸和取向[39]。所使用的方法是分析有偏差和高度可變數據的有效工具。

三維結構的不變性在功能上也很重要。然而，壹些蛋白質物種沒有獨特的結構來參與基本的生物學過程，如細胞周期控制、基因表達調控和分子信號傳遞。此外，最近的研究顯示了壹些無序蛋白質的重要性[37]；許多癌基因蛋白質具有非結構域，錯誤折疊的蛋白質異常聚集導致疾病發展[40]。這種沒有固定三維結構的蛋白質稱為固有無序蛋白質(IDP)，而沒有恒定結構的結構域稱為固有無序區(IDR)。

許多參數將IDP/IDR與結構化蛋白質區分開，這使得預測過程具有挑戰性。這個問題可以通過使用深度學習算法來解決，深度學習算法可以考慮各種特征。2013年，Eickholt和Cheng發表了基於序列的深度學習預測指標DNdisorder，相對於高級預測指標[41]提高了對無序蛋白質的預測。後來在2015中，王等人提出了壹種新方法，DeepCNF，利用蛋白質結構預測臨界評估(CASP9和CASP10)的實驗數據，可以準確預測多個參數，如IDPs或具有IDR的蛋白質。DeepCNF算法通過使用許多特征，性能優於基線單從頭計算(ab initio)預測指標[42]。

另壹類重要的蛋白質是結合單鏈或雙鏈RNA的RNA結合蛋白質。這些蛋白質參與RNA各種轉錄後修飾:剪接、編輯、翻譯調節(蛋白質合成)和聚腺苷酸化。RNA分子形成不同類型的臂和環，需要識別和形成連接RNA和蛋白質的二級和三級結構。RNA的二級和三級結構是可預測的，並已通過應用深度信念網絡用於建模結構偏好和預測RBP的結合位點[43]。在真實的CLIP-seq(交聯免疫沈澱高通量測序)數據集上驗證了深度學習框架，以顯示從原始序列和結構分布中提取隱藏特征的能力，並準確預測RBP的位點。

藥物發現和再利用。計算藥物生物學和生物化學廣泛應用於藥物發現、開發和再利用的幾乎每個階段。在過去的幾十年中，不同的研究小組和公司開發了大量的計算方法，用於在世界範圍內對藥物發現和靶標延伸進行計算機模擬，以減少時間和資源消耗。雖然有很多方法[44]，但沒有壹個是最優的(例如，無法進行通量篩選或按蛋白質類別限制)。現在壹些研究表明，深度學習是壹種重要的考慮方法(表1)。

藥物發現的重要任務之壹是預測藥物靶標的相互作用。目標(蛋白質)通常具有壹個或多個與底物或調節分子的結合位點；這些可以用來建立預測模型。然而，包含其他蛋白質成分可能會使分析產生偏差。Wang等人使用成對輸入神經網絡()接受具有從蛋白質序列和靶分布獲得的特征的兩個載體的能力來計算靶-配體相互作用[45]。神經網絡的這壹優點比其他有代表性的靶-配體相互作用的預測方法更準確。

藥物發現和評估昂貴、耗時且有風險；計算方法和各種預測算法有助於降低風險和節省資源。壹個潛在的風險是毒性；例如，肝毒性(肝毒性)是藥品停產的常見原因。通過計算方法預測肝毒性可能有助於避免可能的肝毒性藥物。利用深度學習，不需要復雜的編碼過程就可以有效確定具有原始化學結構的化合物的毒性[46]。使用CNN還可以預測環氧化等性質，這意味著高反應性和可能的毒性；這是休斯等人第壹次實現。通過使用簡化的分子輸入行輸入規範(SMILES)格式的環氧化分子和氫氧化物分子的數據作為陰性對照[47]。

多平臺數據(多組學)。能夠使用多平臺數據是深度學習算法的主要優勢。因為生物系統是復雜的，並且具有許多相互關聯的元素，基因組學、表觀基因組學和轉錄組學數據的系統水平整合是提取最有效和生物學上有意義的結果的關鍵。整合過程在計算上並非不重要，但好處是與單源方法相比，生物標誌物特異性和靈敏度增加。

計算生物學中需要分析組合數據的主要領域之壹是計算表觀遺傳學。基因組、轉錄組、甲基化組特征和組蛋白修飾的聯合分析提供了精確的表觀基因組預測。

壹些研究人員開發了深度學習方法，可用於分析來自多個來源的數據(表1)。Tools.genes.toronto.edu/deepbind/,是壹種基於深度學習的方法，由Alipanahi等人開發，用於計算核苷酸序列結合各種疾病中轉錄因子和RNA結合蛋白的能力，並表征單點突變對結合特性的影響。DeepBind軟件受CNN啟發，對技術不敏感；相反，它兼容從微陣列到序列的定性不同形式的數據。CPU的實現也允許用戶並行化計算過程[48]。在另壹個基於CNN的應用中，周和Troyanskaya設計了DeepSEA框架來預測染色質特征和評估疾病相關的序列變異。與其他計算方法不同，他們的算法可以捕獲每個結合位點的大規模上下文序列信息，用於註釋從頭序列變體[49]。開發了類似的CNN管道來揭示序列變異對染色質調節的影響，並訓練和測試了DNase-seq(DNase I測序)數據[50]。壹個名為Bassed的深度學習軟件優於基線方法，在所有數據集上實現了0.892的平均AUC。最後，隨著深度特征選擇模型的發展，深度學習被用於識別活性增強子和啟動子。這個模型利用了DNN對復雜的非線性相互作用進行建模的能力，並學習高級的廣義特征[51]。該模型從多平臺數據中選擇特征，並根據其重要性進行排序。在這些應用中，深度學習方法是壹種更加敏感和強大的染色質特性預測器，也是開發復雜生物標誌物的關鍵。

癌癥是壹組異質性疾病的統稱，其中壹些疾病是由基因突變引起的，因此使用多平臺數據對癌癥進行分類可以揭示潛在的病理。梁等人開發了壹個具有多平臺數據的深度信念網絡模型，用於聚類癌癥患者[52]。受限玻爾茲曼機用於對每個輸入模式定義的特征進行編碼。這種方法的壹個優點是深度信念網絡不需要正態分布的數據，因為其他聚類算法和遺傳(生物)數據都不是正態分布的。

最後，從自然語言處理的角度來看，深度學習在瀏覽龐大的非結構化(研究出版物和專利)和結構化數據(知識標註圖譜，如基因本體[53]或Chembl[54])時，檢驗假設的合理性。這些數據庫共同構成了壹個龐大的、多平臺的數據集，如果結合起來會更豐富、更全面。

總之，現代生物數據的龐大規模對於以人為本的分析來說過於龐大和復雜。機器學習，尤其是深度學習與人類專業知識的結合，是全面整合多個大型多平臺數據庫的必由之路。深度學習使人類能夠做以前無法想象的事情:百萬輸入的圖像識別，接近人類能力的語音識別和語音自動化。盡管深度學習，尤其是無監督的深度學習，仍處於起步階段，尤其是在生物學應用方面，但最初的研究支持它是壹種有前途的方法，可以克服生物數據的壹些問題，並對數百萬間接和相互關聯的疾病的機制和方式給予新的見解，盡管在實現上沒有限制和挑戰。