4 个版本 (2 个稳定版本)

1.1.0 2024 年 2 月 28 日
1.0.0 2022 年 2 月 17 日
0.3.7 2021 年 8 月 25 日
0.3.3 2019 年 8 月 7 日

科学 中排名第 71

MIT 许可证

195KB
4K SLoC

Rust 3.5K SLoC // 0.0% comments Shell 559 SLoC // 0.1% comments

UMGAP - Unipept 原核生物组分析流程

Unipept 原核生物组分析流程可以分析原核生物组样本,并为每个读取项返回其检测到的分类的频率表。它基于 Unipept 原核生物组分析流程。这两个工具都是在 根特大学 的应用数学、计算机科学和统计学系开发的。

安装与设置

  1. 根据 Rust 的安装说明进行安装,或使用您喜欢的包管理器(例如 apt install rustc)。该流程是为最新稳定版本开发的,但应在 1.35 和更高版本上运行。

  2. 克隆此存储库并转到存储库根目录。

    git clone https://github.com/unipept/umgap.git
    cd umgap
    
  3. 编译并安装 UMGAP。

    cargo build --release
    cargo install --path .
    

    对于多用户安装,使用 install 而不是 cargo install,将 umgap 程序和包装脚本放置在所有用户都可以访问的地方。

    sudo install target/release/umgap scripts/umgap-analyse.sh /usr/bin
    

    cargo install 默认将 umgap 命令安装到 ~/.cargo/bin。请确保此目录已添加到您的 $PATH。您可以通过请求版本来检查安装是否成功。

    umgap -V
    
  4. (可选) 安装 FragGeneScanPlusPlus,将其用作流程中的基因预测器。

  5. 运行 scripts/umgap-setup.sh 交互式配置 UMGAP 并下载流程某些步骤所需的数据文件。

    根据您计划进行哪种类型的分析,您可能需要肽链索引文件(功能较弱,但可以在任何不错的笔记本电脑上运行)和9-mer索引文件(存储大约100GB的磁盘空间,运行期间需要同样多的RAM。确切的大小取决于版本。)

    运行以下命令以在用户之间共享数据文件:sudo scripts/umgap-setup.sh -c /etc/umgap -d <datamap> 确保用户可以访问 <datamap>

  6. (可选)分析一些测试数据!运行

    ./scripts/umgap-analyse.sh -1 testdata/A1.fq -2 testdata/A2.fq -t tryptic-sensitivity -o - | tee output.fa
    

    应该会显示一个带有每个表头的分类学ID的FASTA-like文件。如果您没有下载肽链索引文件,而是下载了9-mer索引文件,则可以使用以下命令代替:

    ./scripts/umgap-analyse.sh -1 testdata/A1.fq -2 testdata/A2.fq -o - | tee output.fa
    
  7. (可选)尚未集成 - 可视化一些测试数据!运行

    ./scripts/umgap-visualize.sh output.fa output.html
    

    将生成一个HTML文件,您可以在喜欢的浏览器中查看测试数据的可视化。

更新

可以通过将存储库拉取以获取最新更改,并在存储库根目录下运行来更新源安装。

cargo install --force --path .

用法

UMGAP提供了一些独立的工具,这些工具可以集成到管道中。运行 umgap help 将获得每个工具的文档,Unipept网站上的简短 元基因组案例研究 展示了它们的用法。

此存储库还提供了6个预配置的管道(scripts/umgap-analyse.sh),应涵盖大多数用例。运行脚本而不带任何参数应能启动。预配置的管道包括:

  • high-precision:默认,重点关注高精度和相当高的灵敏度。
  • max-precision:重点关注非常高的精度,但牺牲了灵敏度。
  • high-sensitivity:重点关注高灵敏度,具有相当高的精度。
  • max-sensitivity:重点关注非常高的灵敏度,但牺牲了精度。
  • tryptic-precision:重点关注高精度,使用一个更小的索引文件,这使得它可以在笔记本电脑上使用。
  • tryptic-sensitivity:重点关注高灵敏度,使用一个更小的索引文件,这使得它可以在笔记本电脑上使用。

另一个脚本,scripts/umgap-visualize.sh 将帮助您可视化管道的输出。再次,运行脚本而不带任何参数将打印使用说明。

贡献

请遵守指定的 editorconfigRustFMT 样式。

许可

UMGAP以MIT许可条款发布。有关更多信息,请参阅LICENSE文件。

依赖关系

~17MB
~299K SLoC