4 个版本
使用旧的 Rust 2015
0.1.3 | 2017 年 3 月 24 日 |
---|---|
0.1.2 | 2017 年 3 月 20 日 |
0.1.1 | 2017 年 3 月 19 日 |
0.1.0 | 2017 年 3 月 19 日 |
#12 in #corpus
每月 23 次下载
10KB
157 代码行
opus_tools
: 处理 OPUS 并行语料库的杂项工具
这些是用于处理 OPUS 并行语料库的小型实用程序,OPUS 并行语料库通常用于机器翻译研究。要安装
curl https://sh.rustup.rs -sSf | sh
cargo install opus_tools
opusraw2txt
: 从原始单语文件提取原始文本
从 字幕页面 的右侧列下载文件 ca.raw.tar.gz
并运行
opusraw2txt ca.raw.tar.gz
这将打印大量句子到标准输出,以供进一步处理(UTF-8 格式)。
如果您想处理整个目录的文件,您可以为 GNU parallel
和 szip
安装,并运行
ls *.raw.tar.gz |
sed 's/\.raw\.tar\.gz$//' |
parallel --joblog out.log 'opusraw2txt {}.raw.tar.gz | szip > {}.sz'
这将快速提取大量句子
Extracted 26782811 sentences from 27605 files.
Extracted 80140630 sentences from 90319 files.
Extracted 79320 sentences from 89 files.
Extracted 112360292 sentences from 124815 files.
Extracted 22917237 sentences from 23492 files.
Extracted 229583 sentences from 188 files.
Extracted 7335505 sentences from 6438 files.
Extracted 38677592 sentences from 44584 files.
Extracted 101502145 sentences from 114150 files.
...等等。
如果您看到
couldn't process OpenSubtitles2016/raw/es/2015/4544966/6155032.xml.gz (skipping):
Error: corrupt deflate stream
Error: couldn't process es.raw.tar.gz
Caused by: corrupt deflate stream
...这意味着您下载的文件在末尾之前被截断。据我所知,这影响了 es.raw.tar.gz
和 pt_br.raw.tar.gz
的主副本。
贡献
欢迎您的反馈和贡献!更多信息,请参阅 subtitles-rs 项目。
依赖关系
~13–24MB
~427K SLoC