scRNA Editing Project1-SPRINT的安装和使用

介绍

SPRINT是Zhang等人2017年发表在Bioinformatics上的检测RNA编辑位点的工具,文章题目为:SPRINT: an SNP-free toolkit for identifying RNA editing sites。该工具不同于传统的RES(RNA Editing Sites)检测方法,它不依赖于数据库中的SNP位点。

SNP-free RNA editing Identification Toolkit (SPRINT)

简单来说,因为RNA编辑通常是成簇发生的,因此SPRINT定义一个SNV duplet的概念:如果基因组上两个相邻的SNV位点小于一定的阈值的话,则称之为一个SNV duplet,将这两个SNV位点定义为RES。基因组上不同区域的duplet阈值可以有不同的取值(例如Alu区域倾向于发生更多的RNA编辑,则Alu区域的该阈值设置为更小)。


SPRINT文章解读

引言

RNA编辑主要分为A-I和C-U两种,其中人类组织中发生的RNA编辑的95%是A-I。

传统对RES检测的方法是首先将RNA-Seq数据与参考基因组或参考转录组相比较,找出所有的SNV(Single Nucleotide Variants),然后再将基因组中本来存在的SNP位点过滤掉,剩下的就是RES位点。

A-to-I RES位点被发现在基因组上是成簇出现的,而SNP在基因组上则是密度很低,并且不同的SNP在基因组上的出现也是独立的。因此,定义两个相邻的相同变异类型的SNV为SNV duplet,通过SNV duplet的不同分布来区分SNP和RES。

通过SNV duplet来识别RES

此外,对于未比对到基因组上的resds,Porath等人通过将A全部替换为G,然后再与参考基因组比对,可以发现基因组的某些区域上存在大量的RNA编辑,这种现象称为RNA超编辑。利用这种方法,SPRINT也能检测出hyper-RES位点。


方法

具体来讲,SPRINT的流程如下:

SPRINT流程示意图

SPRINT的安装

SPRINT v0.1.8最新版的安装过程非常简单,首先在https://github.com/jumphone/SPRINT下载源数据包,然后在python2.7的环境下使用pip命令即可安装完成

pip install SPRINT-master.zip


SPRINT的使用

Prepare: Mask reference genome and build mapping index

sprint prepare [options] reference_genome(.fa) bwa_path

[options]:

-t transcript_annotation(.gtf)         #Optional


Main: Identify regular- and hyper- RESs

sprint main [options] reference_genome(.fa) output_path bwa_path samtools_path

[options]:

-1 read1(.fq)         # Required !

-2 read2(.fq)         # Optional

-rp repeat_file         # Optional, you can http://sprint.software/SPRINT/dbrep/

-ss INT         # when input is strand-specific sequencing data, please clarify the direction of read1. [0 for antisense; 1 for sense] (default is 0)

-c INT         # Remove the fist INT bp of each read (default is 0)

-p INT         # Mapping CPU (default is 1)

-cd INT         # The distance cutoff of SNV duplets (default is 200)

-csad1 INT         # Regular - [-rp is required] cluster size - Alu - AD >=1 (default is 3)

-csad2 INT         # Regular - [-rp is required] cluster size - Alu - AD >=2 (default is 2)

-csnar INT         # Regular - [-rp is required] cluster size - nonAlu Repeat - AD >=1 (default is 5) -csnr INT # Regular - [-rp is required] cluster size - nonRepeat - AD >=1 (default is 7) -csrg INT # Regular - [without -rp] cluster size - AD >=1 (default is 5)

-csahp INT         # Hyper - [-rp is required] cluster size - Alu - AD >=1 (default is 5)

-csnarhp INT         # Hyper - [-rp is required] cluster size - nonAlu Repeat - AD >=1 (default is 5) -csnrhp INT # Hyper - [-rp is required] cluster size - nonRepeat - AD >=1 (default is 5)

-cshp INT         # Hyper - [without -rp] cluster size - AD >=1 (default is 5)


Start from aligned reads

对于已经比对好后得到的BAM文件,可以使用sprint_from_bam命令寻找RES。但仅通过BAM文件无法找到hyper RES,因为hyper RES需要使用比对软件得到unmapped reads。要得到hyper RES,可以先使用samtools将unmapped reads从BAM文件中提取出来,然后转换为fastq格式,再对这些unmapped reads执行前两步的sprint标准流程即可。

sprint_from_bam [options] alinged_reads(.bam) reference_genome(.fa) output_path samtools_path

[options]:

-rp repeat_file         # Optional, you can download it from http://sprint.software/SPRINT/dbrep/

-cd INT         # The distance cutoff of SNV duplets (default is 200)

-csad1 INT         # Regular - [-rp is required] cluster size - Alu - AD >=1 (default is 3)

-csad2 INT         # Regular - [-rp is required] cluster size - Alu - AD >=2 (default is 2)

-csnar INT         # Regular - [-rp is required] cluster size - nonAlu Repeat - AD >=1 (default is 5) -csnr INT # Regular - [-rp is required] cluster size - nonRepeat - AD >=1 (default is 7) -csrg INT # Regular - [without -rp] cluster size - AD >=1 (default is 5)


实战

cd /local/txm/txmdata/scRNA_editing/SRRdata/SRR7311317/sprinttest/

sprint prepare -t ./Homo_sapiens.GRCh38.87.chr.gtf ./hg38.fa /local/txm/anaconda3/envs/py2/bin/bwa

sprint main -rp  ./hg38_repeat.bed  -p  8  -1  ../SRR7311317_1.fastq  -2  ../SRR7311317_2.fastq  ./hg38.fa  ./  /local/txm/anaconda3/envs/py2/bin/bwa  /local/txm/txmdata/scRNA_editing/SPRINT-master/samtools_and_bwa/samtools









参考

https://academic.oup.com/bioinformatics/article/33/22/3538/4004872

https://github.com/jumphone/SPRINT

https://github.com/jumphone/SPRINT/blob/master/SPRINT_manual.pdf

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 228,345评论 6 531
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 98,494评论 3 416
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 176,283评论 0 374
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 62,953评论 1 309
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 71,714评论 6 410
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 55,186评论 1 324
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 43,255评论 3 441
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 42,410评论 0 288
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 48,940评论 1 335
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 40,776评论 3 354
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 42,976评论 1 369
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 38,518评论 5 359
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 44,210评论 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 34,642评论 0 26
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 35,878评论 1 286
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 51,654评论 3 391
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 47,958评论 2 373

推荐阅读更多精彩内容