单细胞分析雕刻师--常见整合方法比较(一)

Preface

随着单细胞测序技术的迅猛发展和市场的不断下沉,越来越多的研究人员都青睐于使用该技术来阐明一些生物学或医学问题,使通过传统bulk-RNA测序无法解决的事情得以实现成为可能,如细胞图谱的绘制、稀有细胞的鉴定与识别、细胞发育/分化轨迹的构建、肿瘤的精细化研究等。与此同时,也产生了海量的单细胞数据,而这些数据通常来源于不同的实验室,具有不同的构建时间、不同的操作人员以及不同的试剂批次等等。上述差异往往会对数据的合并造成严重的影响,导致批次效应的出现,进而干扰对真实的生物学效应的鉴别,因此,如何将不同来源的数据完美地系在一起一直是一个复杂的、具有挑战性的问题。在过去的十几年间,有数十种数据整合方法相继被开发出来,它们基于不同的原理或应用场景实现对数据的合并,在保留生物学差异的同时尽可能地去除批次效应。这里,我们选择了一些比较常见的工具或方法,包含ComBat、BBKNN、Seurat CCA、Seurat RPCA、Harmony、LIGER、fastMNN、Conos、Scanorama总共9种,通过应用于同一套数据对其进行比较。

Results

0Preprocessing

对于每一个独立的样本,我们遵循 Seurat 标准分析流程进行预处理,并且依据已知的Marker基因和SingleR[1] 预测的细胞类型结果对其进行注释,然后将所有数据合并在一起,分别保存为RDS和Anndata对象以供后续使用。以其中一例样本进行演示 (10x, pbmc_1k)。读取数据创建Seurat对象,过滤表达基因数低于200、线粒体基因占比高于5%的细胞;然后对表达矩阵做标准化处理,结合高变基因(HVGs, High Variable Genes)使用PCA降维,选取前20个主成分(PCs, Principal Components) 进行后续的聚类及可视化,并使用SingleR对细胞进行注释;最后,结合已知的细胞特异性Marker进行注释的校验 (Figure1)。

Figure1 | pbmc_1k样本聚类结果。上方图片为按照聚类结果和注释结果分组的UMAP降维图形,下图为Marker基因的表达热图,列按照聚类结果分组


0unIntegration

按照如上方法对每个样本进行单独处理,然后合并所有样本。首先,我们在未矫正的情况下直接对数据进行分析,并按照不同的标签进行分组,如数据来源、细胞类型等 (Figure2)。其中,为了方便理解及简化后续分析,我们将细分的细胞类型简单合并,例如 pre-B_cell_CD34- , pro-B_cell_CD34+ 和 B cell 统称为B细胞。

Figure2 | 未整合数据分布。四张子图分别为按照数据来源、聚类结果、细分细胞类型、合并细胞类型分组的UMAP图形展示
Figure3 | 未整合数据评分


0Seurat CCA

首先使用Seurat-CCA[2]的方法进行数据整合。该方法主要通过CCA(Canonical Correlation Analysis) 来对原始数据进行降维处理并且捕获其中的数据特征,从而实现数据的对齐,减少批次效应的影响 (Figure4)。主要步骤包括使用CCA生成亚空间,然后在亚空间内识别互近邻对,最后将这些互近邻对作为“锚点”来调整表达值,返回一个矫正的基因表达矩阵。这里,我们选取了前3000个HVGs,通过函数 Seurat::FindIntegrationAnchors(reduction='cca') 计算锚点,然后通过 Seurat::IntegrateData 整合数据,输出的结果用于进一步的分析和绘图。

Figure4 | Seurat整合流程模式图。参考数据和查询数据共享一组类似细胞,通过CCA及L2正则化得到相关向量,映射在共享亚空间中,在该空间内鉴定MNN细胞对并且赋分,最后计算每个细胞的矫正向量用于转换表达数据
Figure5 | Seurat-CCA 整合分析结果。左边为UMAP降维图形展示,分别以数据集和细胞类型分组;右图是结果评分

0Seurat RPCA

接下来我们使用Seurat中另一种用于数据整合的方法——RPCA(Reciprocal PCA),该方法使用RPCA而非CCA来识别数据集锚点。使用该方法确定任意数据集之间的锚点时,会将每个数据集投影到其他PCA空间中。在分析上,Seurat-RPCA和Seurat-CCA并无太大区别。

Figure6| Seurat-RPCA 整合分析结果。左边为UMAP降维图形展示,分别以数据集和细胞类型分组;右图是结果评分
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 228,505评论 6 533
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 98,556评论 3 418
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 176,463评论 0 376
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 63,009评论 1 312
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 71,778评论 6 410
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 55,218评论 1 324
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 43,281评论 3 441
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 42,436评论 0 288
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 48,969评论 1 335
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 40,795评论 3 354
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 42,993评论 1 369
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 38,537评论 5 359
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 44,229评论 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 34,659评论 0 26
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 35,917评论 1 286
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 51,687评论 3 392
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 47,990评论 2 374

推荐阅读更多精彩内容