6.2 使用 Cell Ranger 处理 NCBI Sequence Read Archive (SRA) 数据

从 NCBI SRA 下载的测序数据进行 Cell Ranger 数据处理¶

接下来，我们将介绍如何使用 Cell Ranger 处理从 NCBI（国家生物技术信息中心）提供的 Sequence Read Archive（SRA）中获取的测序数据。

从 NCBI SRA 下载 FASTQ 文件¶

我们将使用 fastq-dump 命令，因此需要先安装 sra-toolkit。以下是安装步骤的相关链接：

Mac 安装步骤
Windows 安装步骤（如果未安装 Ubuntu，请从安装 Ubuntu 开始）

下载 FASTQ 文件¶

首先，使用 --split-files 参数通过 NCBI 的 fastq-dump 实用工具获取 FASTQ 文件。命令如下：

fastq-dump --split-files --gzip SRR6334436

此命令将下载以下两个 FASTQ 文件：

SRR6334436_1.fastq.gz
SRR6334436_2.fastq.gz

要确定这是什么原因，让我们先看看 SRR6334436 的元数据。值得注意的是 L=26 和 L=98 这两个数字，它们分别代表读取 1 和读取 2 的读取长度。

Read1 和 Read2 的含义¶

Read1 是细胞条形码和 UMI 的数据，Read2 是插入片段（Insert）。它们的长度分别是 28 和 90。由此可以推测，SRR6334436_1.fastq 是 Read1，SRR6334436_2.fastq 是 Read2。

引用自 10x Genomics 的文档：

通常，测序数据的样本有两个读段（Read 1 和 Read 2），但有时会有三个或四个读段，这通常是因为包含了索引读段（Index Read）。

示例：从 SRR9291388 获取 FASTQ 文件¶

例如，从 SRR9291388 获取 FASTQ 文件的命令如下：

fastq-dump --split-files --gzip SRR9291388

执行此命令后，输出将是三个 FASTQ 文件：

SRR9291388_1.fastq.gz
SRR9291388_2.fastq.gz
SRR9291388_3.fastq.gz

这与 SRR9291388 的元数据报告的信息一致，即该测序运行每个点（spot）有三个读段（read）。

从元数据分配文件名¶

根据元数据，我们可以如下分配文件：

SRR9291388_1.fastq: Read 1
SRR9291388_2.fastq: Read 2
SRR9291388_3.fastq: Index

将 SRA 数据重命名为适合 Cell Ranger 的文件名¶

Cell Ranger 需要遵循 bcl2fastq 的文件命名规则。bcl2fastq 的文件命名规则如下：

[Sample Name]_S1_L00[Lane Number]_[Read Type]_001.fastq.gz

各部分说明：

[Sample Name]: 代表样本名称或 ID，用于识别数据所属的样本。
S1: 代表样本的序列号，多个样本时依次递增（如 S2、S3 等）。
L00[Lane Number]: 代表流动单元中的通道号，多个通道时依次递增（如 L001、L002 等）。
[Read Type]: 代表读段类型，R1 代表正向读段（Read 1），R2 代表反向读段（Read 2），I1 和 I2 代表索引读段。
001: 代表段号，通常为 001。

基于以上规则，将 SRR6334436_1.fastq.gz 和 SRR6334436_2.fastq.gz 重命名为：

Read 1: SRR6334436_S1_L001_R1_001.fastq.gz
Read 2: SRR6334436_S1_L001_R2_001.fastq.gz

将 SRR9291388_1.fastq, SRR9291388_2.fastq, SRR9291388_3.fastq 重命名为：

Read 1: SRR9291388_S1_L001_R1_001.fastq.gz
Read 2: SRR9291388_S1_L001_R2_001.fastq.gz
Index 1: SRR9291388_S1_L001_I1_001.fastq.gz

在 SRA 数据上运行 Cell Ranger count¶

实际运行时，请记得创建 yard 文件夹。

通常，我会在 yard 文件夹中创建 SRR9291388 文件夹和 SRR9291388_result 文件夹，并将重命名后的文件放入 SRR9291388 文件夹中。

接下来，我们将使用 SRR9291388_1.fastq, SRR9291388_2.fastq, SRR9291388_3.fastq 来运行 Cell Ranger。

记得创建 yard 文件夹以运行 Cell Ranger。

示例步骤¶

通常，我会在 yard 文件夹中创建 SRR9291388 文件夹和 SRR9291388_result 文件夹，并将重命名后的文件放入 SRR9291388 文件夹中。

准备好文件夹后，运行以下命令：

cellranger count --id=SRR9291388_result --fastqs=/yard/SRR9291388 --sample=SRR9291388 --transcriptome=/yard/run_cellranger_count/refdata-gex-GRCh38-2020-A

各选项的说明如下：

--id=SRR9291388_result：此选项指定的 ID 将用作分析结果输出目录的名称。将创建名为 SRR9291388_result 的目录，分析结果将保存在该目录中。
--fastqs=/yard/SRR9291388：此选项指定的路径指向保存输入 FASTQ 文件的目录。/yard/SRR9291388 目录中的 FASTQ 文件将用于分析。
--sample=SRR9291388：此选项指定的样本名用于识别 FASTQ 文件中要分析的样本。在本例中，将分析名为 SRR9291388 的样本。
--transcriptome=/yard/run_cellranger_count/refdata-gex-GRCh38-2020-A：此选项指定的路径指向保存参考转录组数据的目录。在本例中，将使用目录 /yard/run_cellranger_count/refdata-gex-GRCh38-2020-A 内的参考转录组（GRCh38 版本 2020-A）。

成功运行后，文件将输出到 SRR9291388_result 文件夹中。查看 outs 目录，您会发现所需的文件已生成。