#bert #port #create #data #google #script #original

app bert_create_pretraining

这个crate是Google的BERT创建预训练数据的Rust移植版本

2个版本

0.1.3 2023年2月16日
0.1.2 2023年2月16日
0.1.1 2023年2月16日
0.1.0 2023年2月16日

#8 in #bert

自定义许可

24KB
547

bert_create_pretraining

[ API文档 | crates.io ]

这个crate提供了从Google BERT仓库移植的原始BERT create_pretraining_data.py脚本的版本。

安装

Cargo

$ cargo install bert_create_pretraining

用法

您可以使用bert_create_pretraining二进制文件并行创建BERT的预训练数据。该二进制文件接受以下参数

$ find "${DATA_DIR}" -name "*.txt" | xargs -I% -P $NUM_PROC -n 1 \
basename % | xargs -I% -P ${NUM_PROC} -n 1 \
  "${TARGET_DIR}/bert_create_pretraining" \
  --input-file="${DATA_DIR}/%" \
  --output-file="${OUTPUT_DIR}/%.tfrecord" \
  --vocab-file="${VOCAB_DIR}/vocab.txt" \
  --max-seq-length=512 \
  --max-predictions-per-seq=75 \
  --masked-lm-prob=0.15 \
  --random-seed=12345 \
  --dupe-factor=5

您可以使用以下命令查看完整选项列表

$ bert_create_pretraining --help

许可

MIT许可。有关完整许可,请参阅LICENSE文件。

依赖关系

~10–25MB
~357K SLoC