4 个版本 (2 个稳定版本)
1.1.0 | 2024 年 2 月 28 日 |
---|---|
1.0.0 | 2022 年 2 月 17 日 |
0.3.7 | 2021 年 8 月 25 日 |
0.3.3 | 2019 年 8 月 7 日 |
在 科学 中排名第 71
195KB
4K SLoC
UMGAP - Unipept 原核生物组分析流程
Unipept 原核生物组分析流程可以分析原核生物组样本,并为每个读取项返回其检测到的分类的频率表。它基于 Unipept 原核生物组分析流程。这两个工具都是在 根特大学 的应用数学、计算机科学和统计学系开发的。
安装与设置
-
根据 Rust 的安装说明进行安装,或使用您喜欢的包管理器(例如
apt install rustc
)。该流程是为最新稳定版本开发的,但应在 1.35 和更高版本上运行。 -
克隆此存储库并转到存储库根目录。
git clone https://github.com/unipept/umgap.git cd umgap
-
编译并安装 UMGAP。
cargo build --release cargo install --path .
对于多用户安装,使用
install
而不是cargo install
,将 umgap 程序和包装脚本放置在所有用户都可以访问的地方。sudo install target/release/umgap scripts/umgap-analyse.sh /usr/bin
cargo install
默认将umgap
命令安装到~/.cargo/bin
。请确保此目录已添加到您的$PATH
。您可以通过请求版本来检查安装是否成功。umgap -V
-
(可选) 安装 FragGeneScanPlusPlus,将其用作流程中的基因预测器。
-
运行
scripts/umgap-setup.sh
交互式配置 UMGAP 并下载流程某些步骤所需的数据文件。根据您计划进行哪种类型的分析,您可能需要肽链索引文件(功能较弱,但可以在任何不错的笔记本电脑上运行)和9-mer索引文件(存储大约100GB的磁盘空间,运行期间需要同样多的RAM。确切的大小取决于版本。)
运行以下命令以在用户之间共享数据文件:
sudo scripts/umgap-setup.sh -c /etc/umgap -d <datamap>
确保用户可以访问<datamap>
。 -
(可选)分析一些测试数据!运行
./scripts/umgap-analyse.sh -1 testdata/A1.fq -2 testdata/A2.fq -t tryptic-sensitivity -o - | tee output.fa
应该会显示一个带有每个表头的分类学ID的FASTA-like文件。如果您没有下载肽链索引文件,而是下载了9-mer索引文件,则可以使用以下命令代替:
./scripts/umgap-analyse.sh -1 testdata/A1.fq -2 testdata/A2.fq -o - | tee output.fa
-
(可选)尚未集成 - 可视化一些测试数据!运行
./scripts/umgap-visualize.sh output.fa output.html
将生成一个HTML文件,您可以在喜欢的浏览器中查看测试数据的可视化。
更新
可以通过将存储库拉取以获取最新更改,并在存储库根目录下运行来更新源安装。
cargo install --force --path .
用法
UMGAP提供了一些独立的工具,这些工具可以集成到管道中。运行 umgap help
将获得每个工具的文档,Unipept网站上的简短 元基因组案例研究 展示了它们的用法。
此存储库还提供了6个预配置的管道(scripts/umgap-analyse.sh
),应涵盖大多数用例。运行脚本而不带任何参数应能启动。预配置的管道包括:
high-precision
:默认,重点关注高精度和相当高的灵敏度。max-precision
:重点关注非常高的精度,但牺牲了灵敏度。high-sensitivity
:重点关注高灵敏度,具有相当高的精度。max-sensitivity
:重点关注非常高的灵敏度,但牺牲了精度。tryptic-precision
:重点关注高精度,使用一个更小的索引文件,这使得它可以在笔记本电脑上使用。tryptic-sensitivity
:重点关注高灵敏度,使用一个更小的索引文件,这使得它可以在笔记本电脑上使用。
另一个脚本,scripts/umgap-visualize.sh
将帮助您可视化管道的输出。再次,运行脚本而不带任何参数将打印使用说明。
贡献
请遵守指定的 editorconfig 和 RustFMT 样式。
许可
UMGAP以MIT许可条款发布。有关更多信息,请参阅LICENSE文件。
依赖关系
~17MB
~299K SLoC