首页 > TAG信息列表 > fastq

玩转10x单细胞 | scRNA-seq | scATAC-seq | Spatial transcriptome | CRISPR | Perturb-seq

  10x是最成功的单细胞公司,目前最成功的商业平台,已经有很多成熟的单细胞产品线,不管是新手还是进阶的高手都在玩他们平台产生的数据。 这里试图对10x的核心技术和数据来做一个剖析,试图理解其核心原理,加速数据分析进程,辅助科研发现。   我目前玩过的10x数据: scRNA-seq (antibody

python 中os包的常见操作

  001、列出当前工作目录 >>> import os >>> os.getcwd() ## 列出当前目录 '/home/test4'   002、修改工作目录 >>> os.chdir("/home/test3/") ## 修改当前的工作目录 >>> os.getcwd() '/home/test3'   003、列出当前目录下

python 中统计fastq文件中 GC含量

  001、 root@PC1:/home/test# ls a.fastq test.py root@PC1:/home/test# cat a.fastq ## 测试fastq文件 @DJB775P1:248:D0MDGACXX:7:1202:12362:49613 TGCTTACTCTGCGTTGATACCACTGCTTAGATCGGAAGAGCACACGTCTGAA + JJJJJIIJJJJJJHIHHHGHFFFFFFCEEEEEDBD

python 中实现切除fastq文件序列的前后若干碱基

  001、 root@PC1:/home/test# ls a.fastq test.py root@PC1:/home/test# cat test.py ## 测试程序 #!/usr/bin/python in_file = open("a.fastq", "r") out_file = open("result.txt", "w") dict1 = {} idx = 0 for i

python 学习之 fasta/fastq 处理利器--pyfastx

  001、 fasta序列迭代   (base) root@PC1:/home/test2# cat a.fasta ## 测试fasta文件 >gene1 myc AGCTGCCTAAGC GGCATAGCTAATCG >gene2 jun ACCGAATCGGAGCGATG GGCATTAAAGATCTAGCT >gene3 malat1 AGGCTAGCGAG GCGCGAG GATTAGGCG >>> import pyfastx

如何查找序列fastq文件和找到参考基因组

首先是一个SIRV的数据,论文中给出了AC:SRR5286959,在ebi中可以搜到相关链接,并下载fastq文件。 在ebi的页面下方,Study Accession的意思是研究相关的内容,打开页面可以看到来源于哪个物种。 然后可以在另一个网站(https://asia.ensembl.org/index.html)找到这个物种(Mouse)的参考基因组

【fastqe】有趣的表情包版fastqc

FASTQ with Emoji = FASTQE

python 遍历大文件,处理数据时,时时把变量保存到文件,不增大变量,节省内存

# 多用write()def split_file(infile, n_parts, outdir): if not os.path.exists(infile): sys.stderr.write("Error: Can't find file: %s\n" % infile) sys.exit(1) fqname, ext = '', '' if infile.endsw

2021-10-26 宏基因组 分析(个人笔记2)

代码涉及软件、数据库都是绝对路径 source /home/dengqr/miniconda3/bin/activate conda config --set auto_activate_base true find *log |wc -l #备份数据 【原始数据不动original】 cp -r 00data 00data2 #数据上次确认 ls -l | grep ".gz$" > 1.txt 查看虚拟环境

seqkit | 序列处理利器 | fastq | fasta

有时候需要个性化处理原始序列,自己写python脚本太慢,且速度太慢,可以用seqkit这个工具,开发得不错。   比如提取10x genomics的barcode,fastq里的前16个碱基。 seqkit subseq Vcl-YFP-CNCC_3_S35_L004_R2_001.fastq.gz -r 1:16 > tmp.fastq      参考: fasta/fq文件处理万能工具

Smart-seq2 转 Count 矩阵

这个流程主要是将上游Smart-seq2 的 fastq 数据转换成单细胞表达矩阵 # Global variable # Tips: # This pipline is use to get the scRNA-seq expression Matrix from Smart-seq2 fastq files. # # Date: 2021-10-04 10:10:11 # Best Regards, # Yuan.Sh (Maj

MIXCR处理VHH高通量测序数据

MIXCR 数据来源 羊驼(好像是已经免疫过后的)外周血转录组/基因组经多重PCR扩增后,形成特定库并将这些序列重组于表达载体转入噬菌体(噬菌体展示技术),经固相/液相淘选后得到高亲和力的VHH序列库。该序列库再次放大构成高通量测序库,采用PE300测序策略。 实验目的 paired reads 组装

linux系统中while循环一次传入多个变量

1、测试数据 [root@centos79 test]# cat reads.list sample01 /home/test/sample01 /home/test/sample01_2.fq.gz sample02 /home/test/sample02 /home/test/sample02_2.fq.gz sample03 /home/test/sample03 /home/test/sample03_2.fq.gz sample04 /home/test/sample04 /home

ChIP-seq流程结果文件解读

接前面文章:ChIP-seq | ATAC-seq | RNA-seq | 数据分析流程 前面已经把pipeline跑完了,但是关于结果的解读还是不清楚,这里来深入探讨一下。   复习: pipeline:https://github.com/ENCODE-DCC/chip-seq-pipeline2 大致流程图:https://www.encodeproject.org/pipelines/ENCPL272XAE chi

科研提升实训(0)——开题

选择参加了学院的科研提升实训项目,写写东西记录下实训的过程与心得。先从开题开始,简单的介绍下整个项目的内容,感谢老师和学长在开题的时候对我的帮助! 项目名称 多核平台下FASTQ文件预处理软件的设计与优化 项目目标 1、 设计并实现针对FASTQ类型文件保存的基因测序数据质量控

下机数据处理:拼接、过滤和去嵌合

下机数据处理:拼接、过滤和去嵌合 下机数据处理:拼接、过滤和去嵌合 参考链接:https://mp.weixin.qq.com/s/aHCMS2yXsAGtmrE8VkDAbg [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RIanoUPR-1606740390975)(C:\Users\12759\AppData\Roaming\Typora\ty

一天学会Trinity转录组无参组装

软件trinity使用流程 1. 数据下载 从NCBI的SRA下载原始下机数据,选择双端测序的Pair-end,但是一般只有一个文件,需要进行格式转换与解压: 2. 安装软件 本次全部使用conda进行,在conda中安装trinity和其他附带软件: conda install -c bioconda blast conda install -c bioconda t

rMATS输出结果文件只有表头

问题 我在用rMATS turbo做可变剪切分析。然而运行程序发现输出结果文件里只有表头: 解决方法1 这个问题在软件github有几个issues提到过类似问题,如 most output files with only a header 说可能是由参数--readLength设置得和实际的read长度不符导致的。加个参数--variable-read-l

sra 数据转成 fastq并改名

把sra数据移动到我们工作目录后,我们开始sra转faq。 正式运行代码之前,必须先拿一个样品测试下代码能否运行成功,这点很关键,因为这步就算成功运行也特别慢,要是代码再出错了就更浪费时间了。 拿第一个样品做测试 ls SRR5315196.sra |fastq-dump -gzip --split-3 -O ./ SRR53151

NECAT: Nanopore数据的高效组装工具

文章首发在个人博客: NECAT: Nanopore数据的高效组装工具 NECAT是肖传乐老师团队开发的一个针对Nanopore数据组装的软件,目前该工具尚未发表,除了https://github.com/xiaochuanle/NECAT有软件的介绍外,暂时没有中文资料介绍NECAT的使用。 太长不看的结论: Nanopore的组装推

Bioinformatics Data Skills by Oreilly学习笔记-6

Chapter6 Bioinformatics Data Retrieving Bioinformatics Data Downloading Data with wget and curl Two common command-line programs for downloading data from the Web are wget and curl. Depending on your system, these may not be already installed; you’ll

统计fasta序列条数

1.统计大于号开始的行数或seqkit 工具 # 通过搜索>的数量 grep -c '^>' myFasta.fasta 1397492 #seqkit统计提取,速度也是很快的 seqkit stats t.fa -T | grep -v file | cut -f 4 1397492 # 统计 1-100bp 范围长的序列数 cat t.fa | seqkit seq -m 1 -M 100 | seqkit stat -T | gre