生信必备|掌握R语言在单细胞转录组数据分析中的应用

玖科医学 11-04 28

前言：

而今兄弟们对“r语言中大于怎么表示”大体比较重视，你们都想要学习一些“r语言中大于怎么表示”的相关内容。那么小编也在网络上网罗了一些关于“r语言中大于怎么表示””的相关内容，希望姐妹们能喜欢，姐妹们一起来了解一下吧！

单细胞测序以单个细胞为单位，通过全基因组或转录组扩增，进行高通量测序，能够揭示单个细胞的基因结构和基因表达状态，反映细胞间的异质性，单细胞测序技术的流程主要包括：单细胞制备、单细胞分离和文库制备、测序和初级分析、数据可视化和解读4个方面。

单细胞测序的发展与基本流程：

单细胞悬液制备：

⏩组织细胞裂解

1.机械法：通过切割、切块、移液器吹打等方法机械切割和破坏组织

2.酶解法：使用胶原酶、胰蛋白酶、中性蛋白酶、弹性蛋白酶等多种酶来消化组织，裂解蛋白键

3.组合方案：在自动化系统的帮助下，机械法和酶解法可以依次或同时进行，实现更广泛的裂解

⏩富集

1.离心：通过密度梯度离心，根据细胞大小、形状或密度富集细胞

2.基于磁珠的富集：通过磁珠结合抗体的阳性/阴性筛选来富集感兴趣的细胞群(包括活细胞)

3.流式细胞荧光分选:通过荧光基团/荧光素结合抗体的阳性/阴性筛选来富集感兴趣的细胞群(包括活细胞)

4.微流体细胞分选:利用基于荧光基团/荧光素结合抗体的阳性/阴性筛选的低压微流体，来富集感兴趣的细胞群

⏩质量控制

方法:细胞计数仪、流式细胞仪;

评估指标:细胞大小、活率、是否有聚集物、浓度是否合适。

文库制备及测序：

⏩单细胞分析的扩增方法

⏩文库及测序

根据测序平台进行建库，文库构建完成后进行文库质检及测序

10X Genomics 全基因组解码系统：

⏩优势:

超高细胞通量:微流体“双十字”交叉系统为8通道系统，每个通道最高可捕获10000细胞，8通道一次可检测细胞范围为500-80000个细胞;

细胞捕获效率高:单个细胞捕获效率高达65%，可准确鉴别稀有细胞类型，利于稀有样本或小细胞量类型样本研究;

多态率低:多态率(同一个GEM包含2个及2个以上细胞)低于0.9%/1000细胞。

数据分析：

⏩数据分析(一):数据预处理

原始测序数据经过处理得到分子计数矩阵(count matrix)，或者reads count(读数矩阵)。这取决于单细胞文库构建方案中是否包含唯一分子标识符(UMl，unique molecular identifiers)。

获得的reads或count矩阵的行数等于barcodes的数目，列数等于基因数目。这里使用术语barcodes而不是cell，因为分配给相同barcode的所有reads可能并不只是来源于同一细胞。

因为文库构建时每个细胞是独立的，所以每个细胞的mRNA也就特异的标记了孔特异性或液滴特异性细胞barcode。此外，许多实验方案还使用唯一分子标识符(UMI)标记捕获的RNA分子。一般在测序之前需要先扩增细胞cDNA以增加其被检测的可能性。但微量扩增更容易引入PCR偏好性。UMI使我们能够区分测到的reads是来源于mRNA分子的不同扩增拷贝还是来源于独立的mRNA分子，从而可以进行更准确的定量。

⏩数据分析(二)：数据质控QC

在分析单细胞基因表达数据之前，我们必须确保所有barcode都对应于有效细胞(viable cells，有活力的细胞)。质控有3个指标:测到的转录本分子总数、测到的基因总数、来源于线粒体基因的转录本所占比例。

质控就是检查这3个指标的分布中是否存在异常峰并设置阈值去除。这些异常的barcodes可能对应于死细胞、细胞膜破损的细胞或doublets。比如，如果某个barcode对应的样品测到的分子总数低、检测到的基因数少、线粒体基因所占比例高，则表明该样品可能存在细胞膜破损导致细胞质RNA漏出，只有线粒体中的RNA保留了下来。相反，如果某个barcode对应的样品有异常高的总分子数和检测到的基因数，则有可能这个样品包含2个或以上细胞(doublets)。

⏩数据分析(三)：数据标准化

计数矩阵中的每个数值代表细胞中一个mRNA分子被成功捕获、逆转录和测序。由于每个操作步骤固有的可变性，即便同一个细胞测序两次获得的计数深度也可能会有所不同。因此，当基于原始计数数据比较细胞之间的基因表达时，得到的差异可能来自于技术原因。Normalization可以通过调整计数数据(scaling count data)等解决这一问题，以获得细胞之间可比的相对基因表达丰度。

最常用的标准化方法是测序深度标准化，也称为“每百万计数”或CPM normalization。该方法来自普通转录组表达分析，使用每个细胞的测序深度作为sizefactor对计数数据进行标准化。CPM标准化假设数据集中的所有细胞最初都包含相等数量的mRNA分子，并且计数深度差异来源于技术问题。

由于单细胞数据集通常由大小和分子数不同的异质细胞群体组成，因此通常需要更复杂的标准化方法。例如，Weinreb et al对CPM算法进行了扩展，在计算size factors时排除在任何细胞中总计数大于5%的基因。这一方法屏蔽掉少数高表达基因对总体表达变化的影响。软件包Scran的pooling-based size factor方法对细胞异质性的影响处理更好。首先把细胞合并到一起避免technical dropout效应，然后基于基因表达的线性回归型估算size factor。这一方法允许细胞有少于50%的差异表达基因，并且在不同的测试评估研究中这一标准化方法都表现最好。

标准化是对细胞计数数据进行缩放处理以使其在细胞之间可比，也可以在基因层面对基因计数进行归一化(scale)以便于基因内部进行直接比较。

基因归一化是指一个基因减去其在所有样品表达的均值然后除以其在所有样品表达值的标准差。归一化后，这个基因在所有样品表达值均值为0，用单位方差形式表示其表达值。归一化后，所有基因在下游分析时权重是一样的。是否对基因进行归一化目前尚无达成共识。尽管流行Seurat教程通常应用gene scaling，但Slingshot方法的作者在其教程中选择了不对基因进行scaling。两种选择的争议点在:所有基因不论表达高低在进行下游分析时权重一致，还是基因表达量的绝对值对下游分析也有贡献。

标准化后，数据矩阵通常进行log(x+1)转换。此转换具有三个重要作用：

(1)对数转换后的表达式值之间的差值可对应于对数转换后的倍数变化，这是衡量基因表达变化的常用方法，

(2)对数转换可减轻(但不能消除)单细胞数据的均值-方差关系(mean-variance relationship)

(3)对数转换可以减少数据的偏态分布，从而使数据近似于正态分布，更符合许多下游分析工具对数据分布的假设要求。

⏩数据分析(四):批次效应和数据整合

当将细胞分组操作时可能会带来批次效应，比如不同芯片上的细胞、不同测序通道中的细胞或在不同时间点收集的细胞都归类于不同的组。实验操作过程中细胞所经历的不同环境可能会影响转录组的测量结果或甚至影响细胞自身的转录变化。所产生的影响存在多个层面:同一实验不同的细胞组、同一实验室的不同实验或不同实验室的数据集之间。通常批次效应校正使用线性方法，而非线性方法则用于数据整合。

⏩数据分析(五)特征选择与降维

人单细胞RNA-seq数据集可包含多达25,000个基因的表达值。对于一个给定的scRNA-seq数据集其中有许多基因都不能提供有用信息，并且大多只包含零计数。即使在QC步骤中滤除了这些零计数基因后，单细胞数据集的特征空间也可能超过15,000个维度(即还会剩余15,000多基因)。为了减轻下游分析工具的计算负担、减少数据中的噪声并方便数据可视化，可以使用多种方法来对数据集进行降维。

scRNA-seq数据集降维的第一步通常是特征选择。在此步骤中，对数据集基因进行过滤仅保留对数据的变异性具有信息贡献的基因(在数据中变异大的基因)。这些基因通常被定义为高变化基因(HVG，highly variable genes)。根据任务和数据集的复杂性，通常选择1,000到5,000个HVG用于下游分析。Klein etal.的初步结果表明，下游分析对HVG的数量不太敏感。在HVG数量从200到2,400之间选择不同的数目时，评估显示PCA结果相差不大。基于此结果我们宁愿选择更多的HVG用于下游分析。

特征选择后，可以通过专用的降维算法进一步对单细胞表达矩阵进行降维。这些算法将表达式矩阵映射到低维空间中，同时以尽可能少的维数捕获数据中所有的信息。鉴于单细胞RNA测序数据固有的低维性特征，这一方法是合适的。也就是说，细胞表达图谱构成的生物形态(biological manifold)可以使用远少于基因数目的维度信息来展示。降维旨在找到这些维度。

降维有两个主要目标:可视化和信息汇总(summarization)。可视化是尝试在二维或三维空间最优地展示数据集。降维后的维度值就是数据在新的空间进行可视化如绘制散点图时的坐标值。信息汇总没有规定输出的维数;但更高的维数对表示原有数据的差异越来越不重要，可以理解为PCA中各个主成分对于原始数据差异的解释依次降低。汇总技术可通过计算数据的固有维数来将数据降维到基本组成(主)成分，从而有助于下游分析。虽然不应使用二维可视化数据来汇总数据集，但汇总方法获得的降维数据可用来可视化数据。

本文地址：http://www.longkongtuishu.com/ca857AGsCDFoHD1U.html

标签： #r语言中大于怎么表示