Skip to content

5.1 如何查找单细胞 RNA seq 数据

从这里开始,我们将从公共数据中查找 scRNA-seq 数据,并进行质量检查分析。在质量检查中,我们将使用 Seurat。因此,建议您阅读这篇文章,以便对 Rstudio 和 Seurat 有一些预先的了解。

【scRNA-seq】使用 Seurat 开始 scRNA-seq 分析的方法(前篇)【Seurat】

查找 scRNA-seq 数据

我们将从 NCBI GEO 数据库中查找 scRNA-seq 数据。请访问以下网址:

NCBI GEO

在右上角的搜索框中输入搜索词。搜索词设置如下:

"[想要搜索的词]" and "single cell RNA-seq"

这次,我们将搜索词设置为“lung cancer” and “single cell RNA-seq”。

开始您的搜索吧!

image.png

点击左侧边栏的 " 自定义 ",然后勾选 " 通过高通量测序进行表达谱分析 "。

image.png

选中后,显示 "Expression profiling by high througput sequencing"(通过高通量测序进行表达谱分析),点击它。

image.png

准备工作至此完成。接下来,寻找可以进行 scRNA-seq 分析的样本。请在顶部尝试 ALK 抑制剂获得性抗性过程中的 DNA 甲基化和基因表达变化(scRNA-seq)

image.png

向下滚动,您将找到有关补充文件的信息。点击 " 自定义 " 浏览文件内容。在该样本中,10X 基因组格式文件的条形码、特征和矩阵均可用,可用于该分析。

image.png

下一步是引入目前分析无法使用的模式。请看 RAW.tar 文件中的搜索结果 [Comprehensive transcriptomic profiles of non-small cell lung cancer by single-cell RNA-seq] (https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE119911)。您可以看到它包含一个类似这样的 txt.gz 文件。这种模式不能用于本分析,应避免使用。我们下次再介绍。

image.png

现在,让我们实际分析一下 ALK 抑制剂获得性耐药性过程中的 DNA 甲基化和基因表达变化(scRNA-seq)。选中该文件的复选框,点击下载,将其下载为 tar 文件,并解压到桌面上。

image.png

下载的样本内容如下。

image.png

然后将文件分别重命名为 barcodes.tsv.gzfeatures.tsv.gzmatrix.mtx.gz。如果不这样做,就无法在 Seurat 中读取它们。顺便提一下,你不必解压缩这些文件,因为它们仍然是 gz 格式。

image.png

准备工作完成

必要的代码如下。请启动 Rstudio 并加载所需的库。

install.packages("dplyr")
install.packages("Seurat") # 使用Docker镜像的用户建议跳过此步骤
install.packages("patchwork")
library(dplyr)
library(Seurat)
library(patchwork)

使用以下代码读取样本并显示用于质量检查的小提琴图。

# 读取样本
pbmc_v2.data <- Read10X(data.dir = "./GSE139386_RAW/")

# 显示小提琴图
pbmc_v2 <- CreateSeuratObject(
  counts = pbmc_v2.data,
  project = "pbmc_v23k",
  min.cells = 3,
  min.features = 200
)
pbmc_v2[["percent.mt"]] <- PercentageFeatureSet(pbmc_v2, pattern = "^MT-")
VlnPlot(
  pbmc_v2,
  features = c("nFeature_RNA", "nCount_RNA", "percent.mt"), ncol = 3
)

如果成功,将会显示如下所示的小提琴图!

image.png