2个版本
0.1.3 | 2023年2月16日 |
---|---|
0.1.2 | 2023年2月16日 |
0.1.1 |
|
0.1.0 |
|
#8 in #bert
24KB
547 行
bert_create_pretraining
这个crate提供了从Google BERT仓库移植的原始BERT create_pretraining_data.py脚本的版本。
安装
Cargo
$ cargo install bert_create_pretraining
用法
您可以使用bert_create_pretraining
二进制文件并行创建BERT的预训练数据。该二进制文件接受以下参数
$ find "${DATA_DIR}" -name "*.txt" | xargs -I% -P $NUM_PROC -n 1 \
basename % | xargs -I% -P ${NUM_PROC} -n 1 \
"${TARGET_DIR}/bert_create_pretraining" \
--input-file="${DATA_DIR}/%" \
--output-file="${OUTPUT_DIR}/%.tfrecord" \
--vocab-file="${VOCAB_DIR}/vocab.txt" \
--max-seq-length=512 \
--max-predictions-per-seq=75 \
--masked-lm-prob=0.15 \
--random-seed=12345 \
--dupe-factor=5
您可以使用以下命令查看完整选项列表
$ bert_create_pretraining --help
许可
MIT许可。有关完整许可,请参阅LICENSE文件。
依赖关系
~10–25MB
~357K SLoC