目前在阐发单细胞的高维表达数据时,城市通过降维聚类将复杂多维的数据改变到低维空间,以便我们停止可视化和进一步挖掘。常见的方法有基于线性阐发来聚类区分,如主成分阐发(PCA),独立成分阐发(ICA)和线性判别阐发 (LDA)等,还有依据特征信息来停止分群,例如 t散布-随机临近嵌进(t-SNE),同一流形迫近和投影 (UMAP)等。那些方法大多是区别离散亚群或者检测胞间临近关系,凡是都没有保留细胞间的继续分化轨迹,当我们的研究对象为继续分化的细胞群,反而不期看显现明显区分的细胞簇。
那若何在区分细胞间区别的同时,又能更大限度保留其继续性呢?基于此研究目的,Laleh Haghverdi 团队提出基于内在扩散样动力学识别细胞分化轨迹的方法,并在Bioinformatics上发布了DiffusionMap软件。下面就让欧宝带您领略一下那款软件吧!
1.DiffusionMap算法简介
DiffusionMap (扩散映射)是一款R软件,通过高斯模子和马尔科夫模子,把单细胞(scRNA)表达矩阵的非线性构造映射为继续性构造,并联系关系至对应细胞分组。数据计算次要包罗以下几步:
图1 | DiffusionMap 示企图
A.由四种区别细胞类型构成的 n × G 单细胞表达矩阵。矩阵右侧的最初一列代表每个细胞的类型;
B.在G维基因空间中,由高斯函数表达每个细胞。因为高斯波骚乱,具有相对高概率密度的继续途径在数据流形上构成扩散途径;
C.计算 n × n 的细胞间马尔可夫转移概率矩阵;
D.马尔可夫转移矩阵的前两个特征向量(DC1和DC2)数据嵌进,它们对应了数据流形的更大扩散系数。DiffusionMap展现了四种细胞类型中细胞的继续活动趋向。
此外,团队也针对单细胞数据常见的零值、缺失值和摘样密度异量脾气状,对软件的计算模子和高斯kenralwidth 挑选停止了优化,确保在数据的遍历扩散过程是继续型的同时细胞之间的扩散间隔仍然有较高的灵敏度。
展开全文
2.阐发方法
2.1 DiffusionMap降维聚类
欧宝们已经将软件适配公司的阐发流程,能够间接从上游单细胞数据提取表达信息(data)和元数据停止DiffusionMap降维聚类。阐发进彀算细胞间隔利用欧式间隔公式,主成分阐发则摘用PCA算法。
由图2和图3能够看出,测试数据中胚胎干细胞和诱导多能干细胞发育趋向比力接近,与远端的神经上皮细胞有明显的区别;3D交互降维聚类图能够自行扭转调整到适宜的角度截图保留。那里也能够依据clusters 或者group等分组信息来展现。
图2 | DiffusionMap2D 和3D降维聚类图
图3 | DiffusionMap3D交互降维聚类图
2.2 特征向量提取和数据整合
降维聚类图的DC1-DC3,即为马尔可夫转移矩阵的特征值(类似于PC1,PC2,对整体数据的奉献度)。我们提取前三维特征值,依据特征值的排序揣测每个细胞的发育形态。表1中pseudotime1 即为DC1中细胞排序得到的分化挨次,图4展现了区别分组区别维度的细胞散布情状。
图4 | Diffusion DC1-DC2 细胞排序
2.3 指定root展现
最初,能够依据先验信息来识别细胞流趋向的起点,指定命据中细胞分化起点并可视化展现区别前提下的发育改变。图5三个红点为root细胞中挑选的特征细胞,细胞由黑至黄逐步的分化;图6的分组山脊图能够看出,胚胎干细胞大部门处于DPT趋向的初始阶段,iPS细胞则更多处于前中期,那也与部门研究认为iPS细胞保留了部门来源细胞特征的成果相符。
图5 | DPT 细胞流趋向轨迹
图6 | DPT趋向中区别分组的细胞散布
颠末多种数据集的测试,DiffusionMap 在同源细胞区别的分化谱系中都有较好的表达。它能够通过扩散映射将空间间隔转换为形态转移的概率,对区别分化途径中的细胞停止降维和排序,确定分化细胞的随机转移标的目的,进而揣测细胞的发育轨迹并检测稀有种群。
参考文献:
[1]Laleh Haghverdi, Florian Buettner, Fabian J. Theis, Diffusion maps for high-dimensional single-cell analysis of differentiation data. Bioinformatics(2015)
[2]Coifman,R.R. , et al. Geometric diffusions as a tool for harmonic analysis and structure definition of data: Diffusion maps. National Academy of Sciences 21(2005).
[3]Kingman, J.F.C. Markov transition probabilities. Z. Wahrscheinlichkeitstheorie verw Gebiete 10, 87–101 (1968).
[4]Kang L, Gao S. Pluripotency of induced pluripotent stem cells. J Anim Sci Biotechnol. 2012 Feb 28;3(1):5. doi: 10.1186/2049-1891-3-5. PMID: 22958434; PMCID: PMC3415130.
详尽手艺请拜候欧易生物官网
百度搜刮欧易生物(oebiotech)
领略更多多组学手艺
(单细胞测序)