作者,Evil Genius
年底了,很多人被裁员了,有些人也与我交流,很焦虑,其实也没什么,只要有一个健康的身体,我们就还有翻盘的机会。
大家也知道,我最近也在劳动仲裁,劳动仲裁是退无可退的最后方法,可见大家都不太好过。
那么回到我们科研的道路, 本来就是荆棘坎坷,我看了这么多文献,不光是学到一些其中的分析思路和方法,也对科研人员的敬业精神感到敬佩,其中有一点值得大家思考,那就是阅读量,大家看文献,文献引用量,经常破百,这还是引用的,文章作者的阅读量远不止如此,起码要几百上千,这还是指研究的相关方向,我们以500篇为例,平均大家3天一篇吧,注意要能够掌握文献的研究成果、科研思路、实现方法等等内容,需要5年,就算2天一篇,也需要3年,可见定力。
这方面,确实老外做得更好一点。扪心自问,大家的阅读量够了么?如果大家进了编制,是科研人员,那么我觉得要求应该更高一点,因为无后顾之忧,只需要把科研做好就行了,如果跟我一样还在和生活、工资、公司等各方面挣扎,每天还要处理拖欠工资这些烂事,低一点是可以理解的。
学生时代是最好的基础阶段,也是只需要好好学习,没有其他压力的时候,这个时候如果分析技能,阅读量上来了,会受益终生。
今天我们扩展一下关于高精度空间转录组(Xenium、CosMx),参考文献如下

空间组学技术虽能实现纳米级精度的组织解析,但面临标准化缺失、数据可比性差与评估体系不统一等挑战。为此,构建了ST多中心多平台基准计划,通过开发标准化操作流程(STSOPs)、开源质控软件SpatialQM与交互式数据门户STP,整合了来自公开数据集与新生成样本的约3300万细胞、70亿转录本数据。该体系支持研究者进行本地质量评估、跨平台数据比对与实时质控分析,旨在推动实验与分析流程的标准化,提升空间转录组数据的可重复性与跨研究可比性,加速领域发展。
聚焦于Xenium(10x Genomics)与CosMx SMI(Bruker Spatial Biology)平台——这两个商用空间成像系统均具备亚细胞级分辨率(50–100纳米)及跨三站点的RNA与蛋白质高通量多重检测能力。通过统一标准化流程从样本制备到数据产出,在站内与跨站点层面系统评估了检测准确性、精密度、可重复性、灵敏度与特异性。基于六种组织类型(正常与癌变两种状态)的连续切片,采用预设的RNA与蛋白质检测panel,ST数据集覆盖超800万细胞(单样本细胞数范围3,624–321,482,112,中位数71,296),同时整合了GEO中Xenium、CosMx及MERSCOPE平台的公开数据,总计约3300万细胞与约70亿转录本。
ST数据集专门采用福尔马林固定石蜡包埋(FFPE)组织样本,包含正常组织(阑尾、结肠、胰腺、回肠)与癌组织(乳腺、前列腺)。除乳腺癌样本在阿德莱德大学进行重复切片分析外,其余组织样本均在原机构完成连续切片以确保技术一致性,最大限度减少操作变异。所有切片在1–3周内完成检测以保持样本完整性,并通过Xenium与CosMx平台生成77份空间图谱,同步进行FFPE单核RNA测序(snPATHO-seq,n=6)及H&E染色(n=44)。公开数据集涵盖脑、肾、淋巴结等14类组织的新鲜冷冻与FFPE样本(人类131例,小鼠46例)。
空间基准门户(STP)整合ST与公开数据集,包含约1383万细胞与约23亿高质量转录本。其交互界面支持用户按三大类别(全部数据、公开数据、ST数据)进行可视化比对,实现跨组织类型与跨平台(Xenium/CosMx/MERSCOPE)的深度交叉分析,为研究者提供样本质量评估与基准参照的一体化解决方案。
研究系统评估了空间转录组技术的性能指标。在转录本层面,ST数据集的标准化单细胞转录本数(TPC)均值为0.29(范围0.07-0.95),低于PUB数据集的0.82(最高达2.81),其中胰腺组织在两组数据中均表现最高表达量。引入核内转录本数(TPN)与单位面积转录本数(TPA)进行标准化分析发现,ST数据集TPA均值(1.4)显著高于PUB数据集(0.5),而TPN均值(73)低于PUB数据集(91.43)。平台对比显示:CosMx在ST数据中具有更高TPN(108.6)与TPA(1.93),Xenium则呈现更高TPC(0.4)。
组织尺寸与类型显著影响检测效能:组织微阵列(TMA)样本因受限面积导致细胞数与转录本检出量较低(如COVID肺研究中平均仅1,117个细胞)。探针特异性评估显示ST数据集假发现率(specificityFDR)均值为0.05,显著优于PUB数据集的0.23,且后者误差范围更宽。信噪比(SNR)与动态范围分析表明ST数据集具有更稳定的组织间一致性(SNR均值0.28,动态范围均值4.11),其中乳腺癌组织SNR最高(0.37),胰腺组织动态范围最广(4.68)。细胞分配转录本比例(FTC)在两组数据间表现一致(均值约0.85-0.87)。
细胞分割质量指标(MECR)显示ST数据集均值为0.05且变异度低,显著优于PUB数据集(均值0.13,范围0.01-0.96),其中正常组织MECR变异度高于癌组织。基因表达矩阵稀疏度(sparsity)在ST数据中较高(均值0.94),表明靶基因panel覆盖更全面;表达熵(entropy)与复杂度(normComplexity)分析揭示CosMx平台检测的表达异质性更高(熵均值0.63 vs Xenium的0.39)。这些技术指标的系统评估为空间转录组实验设计、平台选择与数据质控提供了标准化参考框架。

在可重复性评估中,主成分分析显示成像平台是区分样本的主要因素(PC1解释34.39%方差),Xenium与CosMx样本在PC1上明显分离。细胞计数对比显示H&E染色与Xenium计数高度一致,CosMx计数则随组织类型变化,例如前列腺组织中三种技术检测的细胞数相近(H&E平均86,588个,Xenium 100,794个,CosMx 97,209个),表明细胞膜标记物准确性对成像平台指标解读至关重要。
针对乳腺癌样本的跨数据集比较显示,ST数据集(4个连续切片)平均每切片检测约37.7万个细胞,PUB数据集(4个样本)平均约34.8万个细胞。两组数据在细胞分配转录本比例(FTC)上表现一致(均值0.85-0.87),但ST数据集的特异性假发现率(均值0.05)显著优于PUB数据集(均值0.23)。表达熵分析表明ST数据集变异度更低(范围0.40-0.68),而PUB数据集熵值波动更大(范围0.58-1.03),凸显了标准化实验流程对数据稳定性的提升作用。

结果2、生物学质量指标
研究通过匹配的snPATHO-seq单核RNA测序数据评估空间转录组平台的生物学准确性。Xenium平台在整体组织水平(Spearman ρ=0.78)与细胞类型水平(平均相关系数0.78)均与参考数据高度一致;CosMx平台则呈现较大变异(整体ρ=0.60,细胞类型平均相关系数0.57),其低表达基因检测易出现假性增高而高丰度转录本灵敏度降低。
细胞分割策略对转录本定量准确性具有显著影响。通过比较前列腺癌样本的三种分割方法:核扩张法随扩张距离增加虽提升单细胞转录本数(TPC),但导致互斥基因共表达率(MECR)上升与细胞类型纯度下降;基于多重染色的形态分割法在保持较高纯度同时获得中等TPC(74.6);而仅基于转录本空间分布的Proseg算法实现了最优综合性能——在获得最高细胞纯度(MECR=0.029)的同时,TPC达到形态分割法的1.7倍(128.3),且聚类结果具有最清晰的边界特征。研究表明,基于区域转录模式的智能分割方法可能超越依赖蛋白染色与核扩张的经验策略,尤其在以聚类为基础的细胞分型中展现出显著优势。

结果3、平台灵敏度直接影响细胞与组织结构解析的精细度
针对不同质量数据集的分析显示:Xenium平台凭借高灵敏度能稳定检出全部标记基因(如前列腺癌血管中的ACTA2、乳腺癌转移灶肝细胞中的APOC1),清晰界定组织区域;CosMx平台虽能识别高表达标记基因,但对低表达标记物(如肠道干细胞LGR5、内皮细胞PECAM1)检出能力有限。
自动注释方法在不同质量数据中可获得相似的细胞类型比例,但注释结果与单核RNA测序参考数据的相关性存在差异。尽管质量差异存在,所有数据集均能捕捉相似的高层次组织结构,空间聚类方法可识别一致的组织区域。通过量化转录本PCA嵌入邻域的注释纯度发现:注释纯度与平台质量指标直接相关——CosMx样本中淋巴细胞等细胞类型注释纯度普遍较低,其标注的T/NK细胞虽在组织中广泛分布,但缺乏Xenium样本中观察到的标记基因灵敏检测信号。这种纯度降低既可能反映注释误差,也可能提示平台在捕捉细胞异质性与多样转录状态方面的内在能力,尽管其以牺牲部分检测灵敏度为代价。

结果4、空间转录组与空间蛋白质组的关联性
研究利用Xenium平台(377-plex转录组panel)与CosMx平台(64-plex蛋白质组panel)对24个样本(23个正常组织、1个前列腺癌组织)进行多组学分析。技术指标显示:空间蛋白质组的细胞核总数(TNC)受组织与视野尺寸影响显著(范围11,661-82,123);单细胞荧光强度(FPC)反映抗体结合效率,其组织特异性差异(结肠平均4,440 vs 前列腺2,379)可提示靶标表达水平或需正交验证。
多组学整合分析通过两阶段实现:首先基于snPATHO-seq参考数据对乳腺癌样本进行RNA细胞分型,同步对蛋白质组数据作中心对数比标准化并过滤低表达细胞(n=62);随后采用MaxFuse算法整合27个RNA-蛋白质共享特征,在保留各模态独立注释(RNA细胞类型/蛋白质Leiden聚类)的前提下构建联合嵌入空间。结果显示两种模态在嵌入空间中显著重叠,其中上皮细胞类型在蛋白质聚类中呈现良好对应,而平滑肌细胞在RNA数据中占比偏高。该整合策略提出一种基于共享嵌入空间的下游细胞注释方法,能同步提升细胞类型鉴定与定位的准确性。
研究表明,虽然空间转录组能检测更广泛的基因表达谱,但蛋白质组学作为正交验证手段,可独立解析特定细胞类型。RNA与蛋白质分析的互补性为深入理解复杂组织环境中的细胞功能与互作提供了关键支撑。

看一下数据集
