#crispr #bioinformatics #sequencing #cas12

程序 casmap

用于统计和表征 cas12 6-plex CRISPR 屏幕构建的方法

4 个版本

0.1.3 2022 年 10 月 13 日
0.1.2 2022 年 10 月 12 日
0.1.1 2022 年 10 月 8 日
0.1.0 2022 年 10 月 8 日

#10#crispr

MIT 许可证

38KB
1K SLoC

casmap

映射 cas12 6-plex CRISPR 屏幕的 sgRNA 计数

安装

如何安装 cargo

# from crates.io
cargo install casmap

# from github
git clone https://github.com/noamteyssier/casmap
cd casmap
cargo install --path .

输入

这需要 2 个 fastq 文件 - 一个 R1 和一个 R2。这些可以是 gzipped 或纯文本。

这还需要一个间隔表,它是一个 3 列的制表符分隔表。列代表 [sequence, construct_id, ordering]。构建 ID 和排序目前必须是数字。

间隔表

ATGACGAGCTGAGAGCAAGAGCG	0	0
GAAGTCGGGTGGGCGGGGTCATT	0	1
CGCCGCTTCTACATAGTATCGTT	0	2
GAGTTCTGTCCCTCTGCACTTGC	0	3
TTATGAATCTAATGCCCGTCGGA	0	4
TTTAGCTTCGCCTTCGGGATTCA	0	5
GGAGCGAAGTAAACCCGTTGCGA	1	0
TGCAATCACCGCGCTGAGAAATG	1	1
AATGAGCATAAAAGCGATTTAAA	1	2
CATCTGCTCGACTAGTCGGTAAA	1	3
ATCCACGCTGTATACTAAAATTG	1	4
CGCGCACATCATGGTGCTTATCC	1	5

常数表

这还需要一个常数表,表示可变间隔之间的静态区域。它是一个两列的制表符分隔表,表示 [sequence, ordering]。目前排序必须是数字。

TACCGTTCACATCGATTTT	0
CGGCCCCATGTGCAAGTAT	1
AAAGAGGCAATTGGTCAAA	2
ATTACAGCCGCAACAGGTC	3
GTGCCCGGTTTAGGTTAAT	4
TGCGAATTTTTGGCTGATC	5

模拟数据

为了有一些模拟数据来测试接口,您可以使用我的序列模拟器:casgen

# install
cargo install casgen

# run
casgen

用法

构建计数

这将映射在间隔和常数区域上精确匹配的构建。

casmap constructs \
  -i casgen_R1.fastq \
  -I casgen_R2.fastq \
  -s casgen_spacers.tsv \
  -c casgen_constants.tsv

间隔表征

这将记录每个读取映射到的间隔以及每个间隔映射的数量。

casmap spacers \
  -i casgen_R1.fastq \
  -I casgen_R2.fastq \
  -s casgen_spacers.tsv

元组计数

这将通过匹配间隔元组并忽略常数区域来映射构建。它还允许在映射间隔时进行无歧义的单一不匹配。

casmap tuples \
  -i casgen_R1.fastq \
  -I casgen_R2.fastq \
  -s casgen_spacers.tsv 

描述

这将映射每个读取中找到的间隔和直接重复,并针对每个读取返回一个制表符分隔值表。

casmap describe \
  -i casgen_R1.fastq \
  -I casgen_R2.fastq \
  -s casgen_spacers.tsv \
  -c casgen_constants.tsv

依赖项

~6–18MB
~178K SLoC