做过单细胞组学测序的教师应该都有一个通性——认为亚群细胞正文是数据阐发最重要的环节之一。因为无论后续停止什么阐发,都离不开对数据细胞类型的判定。在早前有给各人介绍过CellMarker——一个快速完成细胞分群的免费网站 。今天想给各人介绍的是另一个同样好用的细胞正文网站——PanglaoDB ()。
图1 颁发在DATABASE杂志上的相关文章[1]
数据库简介
PanglaoDB数据库是一款由瑞典和美国的研究人员配合开发,于2019年4月发布的单细胞转录组数据库,搜集了人和小鼠的单细胞数据,目前共计包罗来自1300+例样本、250+种组织的550万+细胞数据。关于医学范畴做单细胞测序的教师来说,那个数据库用于细胞正文是再适宜不外了。
图2 PanglaoDB数据库首页
从界面上方的菜单栏,能够看出那个网站可能有三种功用:Search、Datasets以及Tools,接下来就带着必然的应用情景给各人介绍一下若何利用那个网站吧~
Serach---查看某基因在细胞的表达情状
好比说,我如今有几例关于人血液PBMC的样本,此中包罗幼儿、成年人以及癌症患者的样本。数据成果显示CD86在某几个亚群高度表达,我想确认CD86能否是某个细胞类型的标识表记标帜基因①,以及确认能否过往学者也得到了不异趋向的表达量②。
那么,那里,我需要查找人在血液中表达CD86的细胞:搜刮一栏输入CD86、选择物种为人(Human)、勾选包罗肿瘤组织以及未成熟组织,搜刮得到成果如下:
展开全文
图3 Serach功用下搜刮人表达CD86基因的组织
搜刮得到一个柱状图和一个表格。柱状图统计了表达CD86基因的cluster(细胞类型)正文数量。而表格则是详细枚举了表达CD86基因的样本组织来源以及细胞亚群、细胞类型信息,“RANK”表达那个基因在该亚群的表达量排名。
CD86能否是某个细胞类型的标识表记标帜基因:
起首,通过柱状图统计成果,能够发现CD86基因在DC树突状细胞中高表达的数据集显著高于其他数据集;
其次,通过表格能够看出,排序是根据RANK的数值从低到高停止排序,也就是说排名越靠前的几个细胞类型,可能越能表达那个基因是该细胞类型的特异性表达基因。比对样本组织能够看到,大大都据集的PBMC中,高表达CD86的都是DC细胞(图3只展现部门表格搜刮成果)。
此外,在表格的最初列操做中指向两个网址,得到的信息是基因通过t-SNE降维图停止的可视化闪现,如图4;而得到的是该数据所有亚群的t-SNE降维图,如图5。
图4其实是一个交互式的图片,点击图中的细胞群,就会呈现相关于该群的介绍,包罗细胞类型、特征标识表记标帜基因、所属细胞周期、表达的转录因子等,如图6。
图4 PBMC数据集(一)细胞t-SNE降维图
图5 PBMC数据集(二)细胞t-SNE降维图
图6 PBMC数据集(三)细胞t-SNE降维图
能否过往学者也得到了不异趋向的表达量:
通过图3~6不难看出,CD86在PBMC中的monocytes单核细胞以及DC细胞中都闪现高表达。认真查看各分群判定成果:图5中所有亚群现实上都判定为monocytes细胞,固然此中有两个亚群是高表达CD86,但其余monocytes亚群根本上都很少表达。而图4和图6判定为DC细胞的数据集中,与其他细胞类型比拟DC细胞都特异性表达CD86,与图3得到的结论相符。同时,CD86在PBMC中部门亚群呈高表达,与最后我的数据成果相符。
上述的那种体例固然也能够必然水平上通过高表达的基因找到对应特征表达的细胞类型,但整理的工做量来说仍是比力大的。为何不先确定有哪些细胞类型,再去寻找对应的标识表记标帜基因呢?当然,在那个数据库里就有那个功用,也是接下来要给各人介绍的。
Datasets
在停止细胞正文的过程中,为了找寻细胞标识表记标帜基因,在此之前应该先确认所停止单细胞转录组测序的组织具有哪些亚群,通过那个功用即可轻松查询
一、想看某个感兴趣的组织都有哪些细胞亚群
以查找小鼠大脑组织中所含有的细胞类型为例:点击“Samples”,选择查询前提:物种、测序平台或表头排序,得到搜刮列表。根据排序找到Tissue为“brain”的数据集
图7 Datasets功用下Samples搜刮小鼠通过10x单细胞测序手艺的脑组织数据集
表格操做栏点击“view”可查看来源数据集和细胞聚类降维可视化图,差别颜色代表差别的簇。
图8 小鼠脑数据集view
根据前面搜刮整理得到潜在存在的细胞类型后,接下来就是找寻那些细胞类型所具有的标识表记标帜基因啦。后续就以图8的Microglia小胶量细胞为例。
二、查看某个细胞亚群的标识表记标帜marker基因
点击“Cell type markers”,网站那里是已经贴心的将每个组织所包罗的细胞类型停止了分类,各人间接选择感兴趣的细胞类型(我们那里选“Microglia”),点选之后,下方就会刷新出一个标识表记标帜基因的列表了,此中绿色布景的数据表达该亚群最典范的标识表记标帜基因,各人能够参考那些基因对本身的单细胞分群停止细胞类型的判定。
图9 Microglia小胶量细胞标识表记标帜基因列表
我们都晓得特征基因的特点是在某种细胞类型中呈特异性表达,那看家基因(housekeeping genes,不会因为外界因素骚乱而产生表达量显著性改变)根本上就与特征基因无缘了。
三、查看某个基因的特异性指数
点击“Ubiquitousness index”能够得到所选物种所表达的基因。根据查看最初一列UI指数以确认该基因的特异性,数值在0~1的范畴,越接近0,特异性越强;越接近1,越趋势于看家基因。
图10 Datasets功用下Ubiquitousness index搜刮小鼠表达基因特异性指数
那里我们就以图9中Microglia小胶量细胞sensitivity敏感度极高的“CX3CR1”及“P2RY12”为例停止验证。
通过网页搜刮“CX3CR1”以及“P2RY12”,能够看到两者的UI指数都很低,确实是属于特异性表达极强的基因。
图11 Microglia小胶量细胞标识表记标帜基因“CX3CR1”及“P2RY12”的特异性指数
除此之外,那个数据库也撑持数据批量下载用于线下阐发以及线上量控、正文阐发。
数据下载
通过“Datasets”的“Bulk data download”能够在页面批量下载数据。
图12 Datasets功用下Bulk data download下载数据
线上正文
“Tools”中的“alona”是一款基于Python语言情况下在线阐发scRNA-seq数据的平台,畴前期量控到细胞正文,都能够通过上传数据在该网站实现。
图13 Tools功用下alona东西线上正文
整个流程也是比力简单的:
1.选择一个未经数据处置、常规的基因表达矩阵压缩文件
2.设定命据处置的相关参数
3.确认后上传数据,期待数据成果即可
图14 颁发在Bioinformatics杂志上的相关文 章[2]
固然alona东西能够较快速的得到数据阐发成果,但那个东西是2020年开发的,研究团队也是有一段时间没有更新了。所以整个流程所利用的软件存在必然的局限性,阐发和正文的成果更好只是做为参考哦~
本期的Panglao数据库就介绍到那里啦,若是还有其他想领会的数据库,无妨在后台留言,也许下次就会介绍!
参考文献
[1]Franzén O, Gan L M, Björkegren J L M. PanglaoDB: a web server for exploration of mouse and human single-cell RNA sequencing data[J]. Database, 2019, 2019.
[2]Oscar Franzén, Johan L M Björkegren, alona: a web server for single-cell RNA-seq analysis, Bioinformatics, Volume 36, Issue 12, 15 June 2020, Pages 3910–3912,
*未经答应,不得以任何体例复造或剽窃本篇文章之部门或全数内容。版权所有,侵权必究。
基迪奥生物|专业定造测序办事
联络体例:020-39341079;service@genedenovo.com