#motif #search-algorithms #fasta #algorithm #input-file #find #motifs

bin+lib motif_finder

使用 Gibbs 样本、中值字符串和随机模式搜索算法在读取的 fasta 格式文件中查找模式。请参阅 README 了解输入数据

16 个版本 (6 个破坏性更新)

0.9.2 2023 年 7 月 7 日
0.9.1 2023 年 4 月 20 日
0.6.2 2023 年 4 月 12 日
0.5.2 2023 年 4 月 2 日
0.1.5 2023 年 3 月 25 日

#94生物学

每月 45 次下载

GPL-3.0-only

49KB
1K SLoC

模式识别器

欢迎使用模式识别器!这是一个命令行工具,允许您从一个 FASTA 文件中提取,指定一些参数,并(希望)获取一些在序列中普遍存在的模式。

安装

如果您已安装 Rust 工具链,可以使用以下命令安装 motif_finder

cargoinstall motif_finder

如果您尚未安装 Rust 工具链,您可以在此安装。

如果您不想安装,您还可以使用右侧发布选项卡中的预编译二进制文件

如果您的平台不在其中,您可以克隆此仓库以构建适用于您平台的版本

git clone https://github.com/nithishbn/MotifFinder.git

并运行

cargobuild --release

在源目录中。这将在 target/release/ 目录中留下一个可执行文件,您可以在命令行中运行它:motif_finder

数据格式

该工具理论上接受所有 Fasta 文件,但其使用方式是使用一种有趣的模式识别方法。

RNASeq

通过使用 RNASeq 数据并将其与参考基因组对齐,我们可以识别转录本的定位点。使用这些定位点,我们可以生成一系列序列,其中包含要查找模式的位点上游的 x bp,特别是转录因子结合位点。

此方法涉及找到一个具有 RNASeq 数据、参考基因组以及包括 samtoolsbamtoolsbedtools 在内的几个生物信息学工具的有机体。

示例

您可以在 promoters.fasta 中尝试查找已知在相对未知的三角硅藻(P. tricornutum)中的 4 个启动子中存在的模式。

从头开始

Gibbs 样本

吉布斯采样算法是一种迭代搜索序列集中最佳基序集的算法,并在所有迭代完成后随机丢弃基序。

motif_finder promoters.fasta-e4 -k10 -o promotifs.txt gibbs-t100 -r100

随机基序搜索是一种算法,它迭代地在序列集中搜索最佳基序集,并在得分不能再提高时随机丢弃基序。

motif_finder promoters.fasta-e4 -k10 -o promotifs.txt randomized-r100

中值字符串

中值字符串算法检查每个序列中每个kmer的汉明距离,并返回所有字符串中最小化的kmer。此算法非常慢,但可以产生非常精确且短的kmer。请注意,当使用大的k值时。

motif_finder promoters.fasta-e4 -k8 -o promotifs.txt median

查找基序

查找基序接受一个现有的基序、编辑距离(即基序与序列之间的最大距离),并找到整个输入文件中发生此匹配的位置。它将匹配打印到控制台。

motif_finder promoters.fasta-e4find_motifCTCAGCG 0 --quiet

对齐

如果您希望将生成的基序对齐回生成它们的序列,以识别所有序列中的最高局部得分基序,您可以使用与上面相同的命令,但使用-a标志

motif_finder promoters.fasta-e4 -k8 -a-o promotifs.txt randomized-r100

这将在识别基序后生成基序的对齐。

其他标志

详细程度 - 使用--quiet--verbose标志设置详细程度。--quiet在大型输入文件和k值时提供一些性能改进。

依赖关系

~20–31MB
~448K SLoC