16 个版本 (6 个破坏性更新)
0.9.2 | 2023 年 7 月 7 日 |
---|---|
0.9.1 | 2023 年 4 月 20 日 |
0.6.2 | 2023 年 4 月 12 日 |
0.5.2 | 2023 年 4 月 2 日 |
0.1.5 | 2023 年 3 月 25 日 |
#94 在 生物学
每月 45 次下载
49KB
1K SLoC
模式识别器
欢迎使用模式识别器!这是一个命令行工具,允许您从一个 FASTA 文件中提取,指定一些参数,并(希望)获取一些在序列中普遍存在的模式。
安装
如果您已安装 Rust 工具链,可以使用以下命令安装 motif_finder
cargoinstall motif_finder
如果您尚未安装 Rust 工具链,您可以在此安装。
如果您不想安装,您还可以使用右侧发布选项卡中的预编译二进制文件
如果您的平台不在其中,您可以克隆此仓库以构建适用于您平台的版本
git clone https://github.com/nithishbn/MotifFinder.git
并运行
cargobuild --release
在源目录中。这将在 target/release/
目录中留下一个可执行文件,您可以在命令行中运行它:motif_finder
数据格式
该工具理论上接受所有 Fasta 文件,但其使用方式是使用一种有趣的模式识别方法。
RNASeq
通过使用 RNASeq 数据并将其与参考基因组对齐,我们可以识别转录本的定位点。使用这些定位点,我们可以生成一系列序列,其中包含要查找模式的位点上游的 x bp,特别是转录因子结合位点。
此方法涉及找到一个具有 RNASeq 数据、参考基因组以及包括 samtools、bamtools 和 bedtools 在内的几个生物信息学工具的有机体。
示例
您可以在 promoters.fasta
中尝试查找已知在相对未知的三角硅藻(P. tricornutum)中的 4 个启动子中存在的模式。
从头开始
Gibbs 样本
吉布斯采样算法是一种迭代搜索序列集中最佳基序集的算法,并在所有迭代完成后随机丢弃基序。
motif_finder promoters.fasta-e4 -k10 -o promotifs.txt gibbs-t100 -r100
随机基序搜索
随机基序搜索是一种算法,它迭代地在序列集中搜索最佳基序集,并在得分不能再提高时随机丢弃基序。
motif_finder promoters.fasta-e4 -k10 -o promotifs.txt randomized-r100
中值字符串
中值字符串算法检查每个序列中每个kmer的汉明距离,并返回所有字符串中最小化的kmer。此算法非常慢,但可以产生非常精确且短的kmer。请注意,当使用大的k值时。
motif_finder promoters.fasta-e4 -k8 -o promotifs.txt median
查找基序
查找基序接受一个现有的基序、编辑距离(即基序与序列之间的最大距离),并找到整个输入文件中发生此匹配的位置。它将匹配打印到控制台。
motif_finder promoters.fasta-e4find_motifCTCAGCG 0 --quiet
对齐
如果您希望将生成的基序对齐回生成它们的序列,以识别所有序列中的最高局部得分基序,您可以使用与上面相同的命令,但使用-a
标志
motif_finder promoters.fasta-e4 -k8 -a-o promotifs.txt randomized-r100
这将在识别基序后生成基序的对齐。
其他标志
详细程度 - 使用--quiet
或--verbose
标志设置详细程度。--quiet
在大型输入文件和k
值时提供一些性能改进。
依赖关系
~20–31MB
~448K SLoC