玩转10x单细胞 | scRNA-seq | scATAC-seq | Spatial transcriptome | CRISPR | Perturb-seq

2022-08-23 18:31:16 作者：互联网

10x是最成功的单细胞公司，目前最成功的商业平台，已经有很多成熟的单细胞产品线，不管是新手还是进阶的高手都在玩他们平台产生的数据。

这里试图对10x的核心技术和数据来做一个剖析，试图理解其核心原理，加速数据分析进程，辅助科研发现。

我目前玩过的10x数据：

scRNA-seq (antibody hashtag)
visum - Spatial transcriptome
scATAC-seq
Perturb-seq (CRISPR library)

可玩性非常高，特别是结合具体的临床医学问题。

分析流程

fastq

【一般测序公司会直接提供，最开始的时候还得自己bcl2fastq】

但fastq的格式每个测序平台会有差异

最常见的格式【所有index都直接放进了R1和R2里，paired end 150bp】：

-rw-r--r--  1 zxli  staff   9.0G Mar 25  2021 UE-D60-BO-2-1_S21_L003_R1_001.fastq.gz
-rw-r--r--  1 zxli  staff   5.3G Mar 25  2021 UE-D60-BO-2-3_S23_L003_R2_001.fastq.gz
-rw-r--r--  1 zxli  staff   8.2G Mar 25  2021 UE-D60-BO-2-1_S21_L003_R2_001.fastq.gz
-rw-r--r--  1 zxli  staff   6.2G Mar 25  2021 UE-D60-BO-2-2_S22_L003_R2_001.fastq.gz
-rw-r--r--  1 zxli  staff   5.6G Mar 25  2021 UE-D60-BO-2-4_S24_L003_R2_001.fastq.gz
-rw-r--r--  1 zxli  staff   6.2G Mar 25  2021 UE-D60-BO-2-4_S24_L003_R1_001.fastq.gz
-rw-r--r--  1 zxli  staff   5.8G Mar 25  2021 UE-D60-BO-2-3_S23_L003_R1_001.fastq.gz
-rw-r--r--  1 zxli  staff   6.7G Mar 25  2021 UE-D60-BO-2-2_S22_L003_R1_001.fastq.gz

这时的分析脚本的参数就是：

sampleName=UE-D60-BO-2

--sample=${sampleName}-1,${sampleName}-2,${sampleName}-3,${sampleName}-4

另一种就是index单独存放，可以存成一个fastq，也可以是单独的两个fastq

-rw-r--r-- 1 lizhixin engan 235M Aug 22 12:35 HT29_P1_CRISPR_CKDL220019395-1A_H7MJYDSX5_S1_L003_I1_001.fastq.gz
-rw-r--r-- 1 lizhixin engan 259M Aug 22 12:35 HT29_P1_CRISPR_CKDL220019395-1A_H7MJYDSX5_S1_L003_I2_001.fastq.gz
-rw-r--r-- 1 lizhixin engan 1.8G Aug 22 12:38 HT29_P1_CRISPR_CKDL220019395-1A_H7MJYDSX5_S1_L003_R1_001.fastq.gz
-rw-r--r-- 1 lizhixin engan 1.7G Aug 22 12:41 HT29_P1_CRISPR_CKDL220019395-1A_H7MJYDSX5_S1_L003_R2_001.fastq.gz

这时的分析脚本的参数就是：

--sample=HT29_P1_GEX_CKDL220019394-1A_H7MN2DSX5

cellranger在你填错sample name的时候会提醒你！

matrix

10x的诸多测序都是使用三个文件的matrix来存储，放在filtered_feature_bc_matrix里

-rw-r--r-- 1 lizhixin engan 137M Aug 23 00:21 matrix.mtx.gz
-rw-r--r-- 1 lizhixin engan 326K Aug 23 00:21 features.tsv.gz
-rw-r--r-- 1 lizhixin engan  56K Aug 23 00:21 barcodes.tsv.gz

最新的是For sparse matrices, the matrix is stored in the Market Exchange Format (MEX)，防止冗余，文件就只有几百M（~1w细胞 x 3w基因）。

第一列就是行坐标，第二列就是列坐标，省去了字符串，方便压缩。

唯一的字符串，基因名和细胞名则单独存放成文件。

downstream

下游的分析标准流程我只用Seurat，API做得好，功能丰富，速度快，完全没有自己开发的必要，工欲善其事必先利其器。

一些个性化的分析就可以用其他工具，Seurat的数据导出也是非常方便，甚至自己可以基于其结构开开发自己的工具。

建库原理

最好还是搞懂吧，一切皆是接口，搞懂了自己也可以随便玩。

scRNA-seq (antibody hashtag)
visum - Spatial transcriptome
scATAC-seq
Perturb-seq (CRISPR library)

单细胞展望

towards the end, the ultimate architecture of life!

待续~

标签：rw,seq,Perturb,--,fastq,gz,001,L003,transcriptome
来源： https://www.cnblogs.com/leezx/p/16615922.html