常用序列比对软件的区别和选择(获取sam文件)

常用序列比对软件的区别和选择(获取sam文件)

目录

1、软件对比

2、软件使用

Bowtie2

BWA

Minimap2

STAR

HISAT2

病原微生物分析系统

在对一个已知物种进行测序后,通常需要将下机数据进行序列质量的质控,随后将质控后的序列比对到这个物种的参考序列上,来进行后续的研究,比如变异分析、获取一致性序列、mRNA定量、去宿主/污染等。

目前常用的用于高通量测序下机数据比对到参考基因组,最终的到sam文件的比对软件有以下几种,分别为BWA,Bowtie2,STAR,HISAT2,Minimap2。

这些软件分别对应不同的使用场景,比如在比对二代/三代测序数据,DNA/RNA序列都有各自的优势。

1、软件对比

软件数据类型主要优势典型使用场景Bowtie2DNA短读长 (Illumina)超快、内存低、支持end-to-end/local模式WGS/WES/ChIP-seq/ATAC-seq(短读长DNA比对)BWA-MEMDNA短读长/中等长读长高精度(尤其indel)、支持>100bp长读长重测序、外显子组、PacBio CLR数据Minimap2长短读长通用速度极快、内存占用低、支持ONT/PacBio长读长比对、交叉物种比对、快速短读长分析(支持但不建议)STARRNA-seq精准识别剪接位点、支持嵌合比对RNA-seq转录本定量与可变剪接分析HISAT2RNA-seq相比于STAR 内存占用更低、速度更快内存受限的RNA-seq分析(如单细胞RNA-seq

2、软件使用

Bowtie2

Bowtie2主要用于短读长基因组测序的序列比对,具有速度快,占用资源较少的特点。

Bowtie2在比对之前需要建立索引,建索引命令为:

bowtie2-build reference.fasta index_name

开始比对:

#单端测序

bowtie2 -p 8 -x index_name -U reads.fq -S output.sam

#双端测序

bowtie2 -p 8 -x index_name -1 read1.fq -2 read2.fq -S output.sam

BWA

BWA同样是应用于基因组测序的序列比对的软件,但BWA不仅支持短读长比对,还支持部分长读长的序列比对(虽然不推荐),并且BWA在比对后续分析结构变异的时候相较于Bowtie2具有较大优势。

BWA建索引命令:

bwa index reference.fasta

BWA比对命令:

# 单端测序

bwa mem -t 8 reference.fasta reads.fq > output.sam

# 双端测序

bwa mem -t 8 reference.fasta read1.fq read2.fq > output.sam

# 三代测序

bwa mem -x pacbio -t 8 reference.fasta pacbio_reads.fastq > output.sam

Minimap2

Minimap2是最适用于三代测序序列比对的软件,特别适用于长读长测序数据(如PacBio和Oxford Nanopore)的比对工作。

Minimap2建索引命令:

minimap2 -d reference.mmi reference.fasta

Minimap2比对命令:

# Nanopore比对

minimap2 -ax map-ont -t 32 reference.mmi reads.fq > output.sam

# Pacbio比对

minimap2 -ax map-pb -t 32 reference.mmi reads.fq > output.sam

STAR

STAR是用于RNA-seq比对的软件,在运行速度快的同时保证了高比对质量。

STAR建索引命令:

mkdir star_index

STAR --runMode genomeGenerate \

--genomeDir star_index \

--genomeFastaFiles reference.fasta \

--sjdbGTFfile annotation.gtf \

--sjdbOverhang 99 \ # 读长减1(如100bp读长设为99)

--runThreadN 16

STAR比对命令:

STAR --genomeDir star_index \

--readFilesIn read1.fq.gz read2.fq.gz \

--readFilesCommand gunzip \ # 若为.gz压缩文件

--outSAMtype SAM \ # 指定输出SAM格式

--runThreadN 16 \

--outFileNamePrefix star_

HISAT2

HISAT2同样是进行RNA-seq序列比对的软件,与STAR相比,HISAT2的所需计算资源更低,可以在服务器配置更低的环境下使用。

HISAT2建索引命令:

# 提取剪接位点信息(需GTF注释)

hisat2_extract_splice_sites.py annotation.gtf > splicesites.txt

# 构建索引

hisat2-build -p 8 reference.fasta --ss splicesites.txt hisat2_index

HISAT2比对命令:

hisat2 -x hisat2_index -1 read1.fq -2 read2.fq -S output.sam -p 8

以上是五种比对软件的优势对比和使用场景,在使用时可以根据手中的序列类型决定选取哪个比对软件。

往期文章:

生信介绍专栏https://blog.csdn.net/avalon96/category_12983267.html

病原微生物分析系统

由深圳臻合智造生物科技有限公司开发的病原微生物分析系统,在各模块的比对环节,根据比对条件自动切换合适的比对软件,比如在比对重测序基因组时选取了Bowtie2,在比对三代序列时选取了Minimap2。并且对于比对结果有直观的数据统计展示。

病原微生物分析系统

相关风暴

苹果iPad型号及价格一览表
365betapp中文

苹果iPad型号及价格一览表

🌀 08-08 🌊 阅读 8515
中国建设银行银行卡安全用卡常识
365betapp中文

中国建设银行银行卡安全用卡常识

🌀 09-27 🌊 阅读 489