古詩詞大全網 - 成語用法 - 10X空間轉錄組之利用基因表達和形態學信息劃分組織區域(3D表達域構建)

10X空間轉錄組之利用基因表達和形態學信息劃分組織區域(3D表達域構建)

空間分辨轉錄組學的最新進展使基因表達模式的綜合測量成為可能,同時保留了組織微環境的空間背景 破譯組織中spot的空間背景需要謹慎使用它們的空間信息 。為此,開發了壹個graph attention auto-encoder framework STAGATE, 通過整合空間信息和基因表達譜來學習低維潛在嵌入,從而準確識別空間域 。為了更好地表征空間域邊界處的空間相似性,STAGATE 采用了壹種 attention mechanism 來自 adaptively learn 相鄰spot的相似性,並通過集成基因表達的pre-clustering, 采用可選的細胞類型感知模塊 。在由具有不同空間分辨率的不同平臺生成的不同空間轉錄組數據集上驗證了 STAGATE。 STAGATE 可以顯著提高空間域的識別精度,並在保留空間表達模式的同時對數據進行去噪 。重要的是, STAGATE 可以擴展到多個連續切片,以減少切片之間的批次效應,並有效地從重建的 3D 組織中提取三維 (3D) 表達域

復雜組織的功能從根本上與不同細胞類型的空間背景相關。 組織中轉錄表達的相對位置對於理解其生物學功能和描述交互式生物網絡至關重要 。 空間分辨轉錄組學 (ST) 的突破性技術,例如 10x Visium、Slide-seq 和 Stereo-seq,已經能夠以多個細胞甚至多個細胞的分辨率對捕獲位置(稱為SPOT)中的基因表達進行全基因組分析 亞細胞水平( 華大的空間技術已經可以達到亞細胞級別 )。

破譯空間域(即具有相似空間表達模式的區域)是來自 ST 的巨大挑戰之壹。 大多數現有的聚類方法不能有效地使用可用的空間信息 。 這些非空間方法大致可以分為兩類。 第壹類使用傳統的聚類方法,如k-means和Louvain算法 。 根據 ST 技術的不同分辨率,這些方法僅限於點數少或稀疏,並且在組織切片中聚類結果可能不連續。 第二類利用單細胞 RNA-seq 定義的細胞類型特征來解卷積spot 。 雖然這些integration方法很有吸引力, 但隨著空間分辨率的提高,它們不適用於細胞或亞細胞水平分辨率的 ST 數據

最近的壹些算法通過考慮相鄰點之間的相似性來調整聚類方法,以更好地解釋基因表達的空間依賴性 。這些方法在識別大腦和癌癥組織切片的空間域方面顯示出顯著改進。例如, BayesSpace 大家可以參考文章 10X空間轉錄組聚類分析之BayesSpace算法聚類 ) 是壹種貝葉斯統計方法, 它通過在先驗中引入空間相鄰結構來鼓勵相鄰點屬於同壹cluster stLearn ( 大家可以參考文章 10X空間轉錄組細胞通訊之stlearn(尋找區域交流熱點中心) )根據從組織學圖像中提取的特征定義形態學距離, 並利用這些距離以及空間相鄰結構來平滑基因表達 SEDR 采用深度自動編碼器網絡來學習基因表示,並使用變分圖自動編碼器同時嵌入空間信息 。盡管這些方法考慮了 ST 的空間結構, 但它們定義的相鄰點的相似性是在訓練前預先定義的,無法自適應學習 。此外,這些方法沒有更詳細地考慮空間域邊界處斑點的空間相似性,也沒有很好地整合空間信息來對基因表達進行插補和去噪。更重要的是, 這些方法不能應用於多個連續切片來重建 3D (3D) ST 模型和提取 3D 表達域 目前3D空間表達域還是壹大難題 )。

STAGATE 首先根據空間位置構建空間鄰居網絡 (SNN),然後通過基於基因表達的預聚類修剪 SNN 來可選地引入細胞類型感知 SNN。 基因表達預聚類可以有效識別包含不同細胞類型的區域,因此這種細胞類型感知 SNN 可以幫助更好地表征這些不同空間域邊界處的空間相似性,用於低空間分辨率的 ST 數據,例如 10x Visium

然後 STAGATE 通過graph attention auto-encoder學習具有空間信息和基因表達的低維潛在嵌入 。 每個spot的歸壹化表達首先由編碼器轉換為 d 維潛在嵌入,然後通過解碼器反轉回重建的表達譜。 與經典的自動編碼器不同, STAGATE 在編碼器和解碼器的中間層采用了attention mechanism。 它自適應地學習 SNN 的邊緣權重(即相鄰點之間的相似性),並通過集體聚合來自其鄰居的信息進壹步使用它們來更新spot表示 。 最後,潛在嵌入用於通過 UMAP 可視化數據,並使用各種聚類算法(例如 mclust 和 Louvain 這個聚類方法大家可以參考文章 10X單細胞(10X空間轉錄組)聚類算法之Louvain ))識別空間域。

為了定量評估 STAGATE 的空間聚類性能,我們首先將其應用於包含 12 個人類背外側前額葉皮層 (DLPFC) 部分的空間表達的 10x Visium 數據集。 已經根據形態特征和基因標記手動註釋了 DLPFC 層和白質 (WM)。 將其視為基本事實 ,我們將 STAGATE 的聚類精度與 SCANPY 實施的非空間聚類方法以及最近開發的三種空間聚類方法( BayesSpace 、 stLearn 和 SEDR )在調整後的蘭特指數 (ARI) 方面進行了比較 。

STARGATE 可以有效識別預期的皮質層結構,並與其他方法相比取得顯著改善

例如,在DLPFC部分151676中, STAGATE清晰地描繪了層邊界,達到了最好的聚類精度(ARI=0.60) 。 相比之下, 非空間方法SCANPY的聚類分配可以大致遵循本節中預期的層模式,但其聚類邊界不連續,存在許多異常值,這降低了其聚類精度 。 有趣的是,利用空間信息的算法 (STAGATE、 BayesSpace 、SEDR 和 stLearn ) 的性能明顯優於非空間聚類方法 SCANPY。 這些結果證明了 STAGATE 在空間域識別方面的優越性及其使用空間信息的必要性

空間信息的整合使 STAGATE 能夠揭示空間域之間的距離並在 UMAP 圖中描繪空間軌跡 。例如,在 DLPFC 部分 151676 中,皮質層組織良好,並在 STAGATE 嵌入生成的 UMAP 圖中顯示出壹致的空間軌跡(從第 1 層到第 6 層和白質)。該結果與相鄰皮質層之間的功能相似性以及時間順序壹致。相比之下, 在 SCANPY 嵌入的 UMAP 圖中,屬於不同層的點沒有清楚地分開 。至於另外兩種空間聚類方法, stLearn沒有明確區分WM和皮質層,SEDR混合了第1層和第6層的spot 。使用 PAGA 的軌跡推理算法進壹步確認了推斷的軌跡。 STAGATE 和 stLearn 嵌入的 PAGA 圖顯示出從 第 1 層到第 6 層的近乎線性的發展軌跡以及相鄰層之間的相似性 ,而 SCANPY 和 SEDR 嵌入的 PAGA 結果是混合的。

進壹步測試了 STAGATE 是否可以應用於不同空間分辨率的 ST 數據。 首先將 STAGATE 應用到來自小鼠海馬體的具有 10μm 空間分辨率的 Slide-seqV2 數據集上 與分辨率為 55μm 的 10x Visium 平臺相比,Slide-seqV2 可以在具有更多spot(每部分 >10,000)但每個斑點的序列深度更小的細胞水平分辨率下描繪空間表達 。 正如預期的那樣,使用具有相同參數的 Louvain 聚類算法,STAGATE 可以很好地表征組織結構並揭示空間域,而通過 SCANPY 和 SEDR 識別的聚類缺乏清晰的空間分離。

例如, STAGATE 在海馬區描繪了壹個清晰的“索狀”結構和壹個“箭頭狀”結構,並確定了它的四個空間域 。 該結果與 Allen Reference Atlas 中海馬結構的註釋壹致.

例如,ITPKA 和 BCL11B 顯示出 Ammon 角域之間的差異表達,並且如預期的那樣在 CA1sp 處高度表達 。已知的海馬 CA2 分子標記如 AMIGO2 和 PCP4 在已鑒定的 CA2sp 域中特異性表達。此外,已發現在齒狀回顆粒細胞上介導興奮性突觸發育的 LRRTM4 在鑒定的 DG-sg 區域特異性表達。除了這些已知的組織結構外,STAGATE 還鑒定了許多分離良好的空間域,並通過差異表達分析揭示了它們的空間基因表達模式。 the domain within the hippocampus except for the “cord-like” and “arrow-like” structures (domain 2) exhibited strong expression of astrocytes gene markers DDN and CAMK2A 。海馬區周圍的結構域(結構域 7)表達了許多與少突膠質細胞相關的基因標記,如 TRF 和 MOBP。此外,還在空間域 3 和 4 中觀察到顯著的空間表達模式,分別以 ENPP2 和 NWD2 為主表達。 這些結果表明 STAGATE 可以剖析空間異質性並進壹步揭示空間表達模式 。我們還在通過 Slide-seq 和 10x Visium 技術分析的小鼠海馬體切片上測試了 STAGATE。作為 Slide-seqV2 的初始版本,Slide-seq 的轉錄本檢測靈敏度相對較低。 STAGATE 分別在 Slide-seq 數據和 10x Visium 數據上很好地描繪了除 CA2sp 之外的已知組織結構 。

還驗證了 STAGATE 在識別小鼠嗅球組織結構方面的性能,這是壹種廣泛使用的具有層狀組織的模型組織 。 首先在 Stereo-seq 從小鼠嗅球組織生成的 ST 數據集上測試了 STAGATE。 Stereo-seq是壹種新興的空間組學技術,可以通過DNA納米球圖案化陣列芯片實現亞細胞空間分辨率 。 此處使用的數據被分類為細胞水平的分辨率(~14μm)。 已在 DAPI 染色圖像中標註了冠狀小鼠嗅球的層狀組織,包含喙遷移流 (RMS)、顆粒細胞層 (GCL)、內部叢狀層 (IPL)、二尖瓣細胞層 (MCL)、外部叢狀層 (EPL) 和嗅神經層 (ONL) 。

與 SCANPY 識別的cluster相比,使用 STAGATE 和 SEDR 嵌入識別的cluster更好地反映了層狀組織,並且與註釋層很好地對應。

重要的是,STAGATE清楚地識別了狹窄的組織結構MCL,這通過二尖瓣細胞標誌物GABRA1的表達得到了驗證。

還將 STAGATE 應用於由 SlideseqV2 分析的小鼠嗅球部分,發現 STAGATE 識別的空間域與 Allen Reference Atlas 對冠狀小鼠嗅球的註釋非常壹致

具體來說,與 SCANPY 和 SEDR 產生的cluster相比,STAGATE 確定了分別對應於副嗅球 (AOB) 和副嗅球 (AOBgr) 的顆粒層的兩個空間域

例如,FXYD6 在鑒定的 AOB 結構域上表現出strong expressions,這與其免疫組織化學實驗壹致。 顆粒細胞標記 ATP2B4 在已識別的 AOBgr 域上表現出強烈的表達。 STAGATE 還鑒定了具有二尖瓣細胞標誌物 GABRA1 顯性表達的狹窄 MCL 結構。 此外,STAGATE 還鑒定了壹個名為 GCL_1 的 GCL 空間亞群,其主要表達 NRGN。 NRGN 是壹個有據可查的精神分裂癥風險基因,這意味著該域與認知功能有關 。 此外,發現 STAGATE 在 UMAP 圖中以及 PAGA 圖中描繪了小鼠嗅球之間的空間軌跡(從 AOBgr 到 RMS 到 ONL)。 總的來說, 這些結果說明了 STAGATE 識別組織結構並從不同空間分辨率的 ST 數據中揭示其組織的能力

接下來, 測試了 STAGATE 是否可以提供對包括更多生物復雜組織(例如整個大腦)在內的切片的洞察力 。 將 STAGATE 應用於 10x Visium 數據集,該數據集描繪了冠狀小鼠大腦部分的空間表達。

例如, SCANPY 的聚類分配未能識別the “cord-like” structure -- Ammon's horn and the “arrow-like” structure -- dentate gyrus within the hippocampus 。 此外,SEDR 只能平滑域邊界,也不能描繪小空間域。 STAGATE 的直接應用在空間域識別方面帶來了壹些改進 。 具體來說,在海馬區,沒有細胞類型感知模塊的 STAGATE 識別了Ammon's horn的 CA1(域 17)和 CA3(域 19)區域,但沒有描述齒狀回結構。

對於包含空間分辨率低的異構細胞類型的 ST 數據, 帶有細胞類型感知模塊的 STAGATE 可以更好地學習空間相似性 。 具體來說,預聚類過程基於Louvain算法,分辨率參數較小(默認設置為0.2)。 正如預期的那樣,單元類型感知模塊的使用有助於識別空間域。 STAGATE 確定了海馬中的阿蒙角以及齒狀回結構,並進壹步描繪了Ammon's horn的空間域 CA1(域 17)和 CA3(域 20)。 此外,STAGATE 更好地描繪了皮層區域(域 0、4 和 12)的層結構。 值得註意的是, 發現細胞類型感知模塊也顯著改善了 UMAP 圖中組織結構的分離,而沒有細胞類型感知模塊的 SEDR 和 STAGATE 更像是非空間方法 SCANPY 的平滑版本

進壹步評估了註意力機制的使用是否確實有助於更好地表征相鄰點之間的異質相似性 。 通過根據節點的空間位置排列節點並通過它們的權重為邊緣著色來可視化註意力層,發現單獨使用註意力機制可以描繪主要組織結構的邊界,如皮層、海馬和中腦

結合 attention mechanism 和細胞類型感知模塊,增強了對結構邊界的描繪,進壹步揭示了小空間域內的空間相似性。 例如,在海馬區,STAGATE 自適應地學習了Ammon's horn內的空間相似性以及齒狀回結構。 總的來說, 這些結果表明 attention mechanism 和細胞類型感知模塊對於描述相鄰點之間的相似性的重要性

STAGATE 可以對基因表達進行去噪和估算 。 分析采用 STAGATE 來減少 DLPFC 數據集中的噪聲,以更好地顯示基因的空間模式。 在 DLPFC 部分 151676 中比較了原始數據的六個層標記基因與 STAGATE 去噪的那些基因的表達

正如預期的那樣, STAGATE 去噪的那些清晰地展示了這些層標記基因的laminar enrichment 。 例如,去噪後,ATP2B4 基因在第 2 層和第 6 層顯示差異表達,這與先前報道的結果壹致,而其原始空間表達完全混亂。 我們根據來自艾倫人腦圖譜的公開原位雜交 (ISH) 數據驗證了 STAGATE 顯示的laminar enrichment。

此外,使用小提琴圖比較原始表達和 STAGATE 去噪的表達表明 STAGATE 增強了層標記基因的空間模式

值得註意的是,STAGATE 在 DLPFC 部分 151507 上獲得了類似的性能。 總的來說,這些結果證明了 STAGATE 降低噪音和增強空間表達模式的能力 。 此外,還在subsample實驗方面將 STAGATE 的插補性能與四種廣泛使用的單細胞 RNA-seq 插補算法進行了比較,並表明其在插補效率和空間表達模式的保存方面均具有優越性。

We applied STAGATE onto a pseudo-3D ST data constructed by aligning the spots of the “cord-like” structure in seven hippocampus sections profiled by Slide-seq

在相鄰切片之間添加相鄰邊緣後,STAGATE 清楚地描繪了已知的組織結構,並且spot傾向於通過它們的空間結構而不是 UMAP 圖中的切片 ID 進行聚類

通過已知的標記基因驗證了基於 STAGATE 識別的組織結構,包括 ITPKA21、BCL11B22、AMIGO223 和 LRRTM4。 這些結果表明,STAGATE 可以通過結合 3D 空間信息幫助重建 3D 組織模型並準確提取 3D 表達模式

空間域的準確識別和空間表達基因的進壹步提取對於理解組織組織和生物學功能至關重要 。在這裏, 作者開發了壹種快速且用戶友好的空間域識別方法 STAGATE,它可以通過以 SCANPY 包的“anndata”對象作為輸入,無縫集成到標準分析工作流程中 。 STAGATE 將空間位置信息轉換為 SNN,並進壹步采用圖註意力自動編碼器來集成 SNN 和表達profiles。在不同空間分辨率的不同平臺生成的不同 ST 數據上測試了 STAGATE 的性能。發現 STAGATE 準確地揭示了 DLPFC 和小鼠嗅球的層流組織。此外,STAGATE 清楚地識別了海馬體的已知組織結構,並揭示了它的空間域。還通過將其與 ISH 圖像進行比較,證明了 STAGATE 在表達去噪方面的能力。最後, 說明了 STAGATE 減輕連續部分之間的批處理效應並在偽 3D ST 模型中提取 3D 表達域的能力

STAGATE 的成功主要歸功於使用了graph attention mechanism來考慮空間鄰居信息 。 然而,目前的 STAGATE 側重於表達譜和空間信息的整合,並沒有利用組織學圖像。 現有的將組織學圖像作為輸入的方法,例如 stLearn ,在分析比較中沒有取得良好的性能。 stLearn 采用預訓練的神經網絡從圖像中提取特征,並通過余弦距離進壹步計算形態距離。 認為這種預定義的方法沒有利用深度學習的靈活性,並且可以擴展註意力機制以方便地自適應地整合組織學圖像特征。

STAGATE 可以處理不同空間分辨率的 ST 數據。 通常,由於相鄰spot之間的高度相似性,STAGATE 對於細胞或亞細胞分辨率的 ST 數據表現更好 。 對於空間分辨率相對較低的技術,引入了細胞類型感知模塊來描述異構空間相似性。 然而, STAGATE 的壹個潛在限制是它將來自壹個部分的相鄰點與屬於不同部分的那些點相同。 未來的工作可能會采用異構網絡來更好地描繪 3D 組織模型

此外, STAGATE 能夠檢測空間域內的空間可變基因 。 現有的空間可變基因識別算法如 SPARK-X(大家可以參考我的文章 10X單細胞(10X空間轉錄組)數據降噪分析(Imputation)之SAVER-X ) 沒有考慮空間域信息,這使得在小組織結構內識別空間特異性表達的基因變得困難 。 為了說明這壹點,在來自小鼠嗅球組織的 Slide-seqV2 數據集上比較了 STAGATE 空間域的差異表達基因與 SPARK-X 的差異表達基因。 具體來說,STAGATE 鑒定了 959 個域特異性基因,SPARK-X 搜索了 2,479 個空間可變基因,FDR <0.01。 **分析發現 SPARK-X 鑒定的許多基因在空間域之間沒有表現出顯著差異 **

此外,由 Moran's I 統計量測量的空間自相關在 STAGATE 鑒定的基因集與 SPARK-X 的前 1,000 個基因之間相似。 這兩種方法鑒定的基因集有很大的重疊,但 SPARK-X 忽略了壹些小組織結構的特定基因。 例如,二尖瓣細胞標記物 GABRA1 在 MCL 域中顯示出顯著的富集,但 SPARK-X 沒有確定其空間模式(FDR = 0.018)。 此外,NEFH基因在MCL域也表現出強表達,而SPARK-X忽略了它(FDR=1)。 我們期望 STAGATE 可以促進組織組織的識別和相應基因標記的發現

生活很好,有妳更好