12个不稳定版本 (3个重大更改)
0.4.0 | 2023年8月8日 |
---|---|
0.3.1 | 2023年7月25日 |
0.3.0 | 2023年5月24日 |
0.2.4 | 2023年5月15日 |
0.1.3 | 2022年5月13日 |
#335 in 压缩
每月106次下载
用于 2 crates
1MB
2K SLoC
oscar-io
OSCAR语料库处理和生成的类型和IO(读取器/写入器)。
该crate提供围绕语料库项和通用读取器/写入器的基本抽象,这些读取器/写入器可用于OSCAR语料库文件。在某个时候,它应该取代Ungoliant和oscar-tools中的读取器实现。
功能
oscar-io
旨在为多种类型的OSCAR语料库提供读取器/写入器。
OSCAR v2
- 读取器
- 未压缩 oscar_doc::Reader::new
- GZ压缩 oscar_doc::Reader::from_gzip
- Parquet
- 写入器
- 未压缩 oscar_doc::Writer::new
- GZ压缩 oscar_doc::Writer::new(使用GzEncoder读取器,from_gzip尚未实现)
- Parquet
- SplitReader(应与具有
split_size: Option<u64>
的SplitReader统一)- 未压缩
- GZ压缩
- SplitWriter(相同)
- 未压缩
- GZ压缩
OSCAR v1.1
- 读取器
- 写入器
- SplitReader(应与具有
split_size: Option<u64>
的SplitReader统一) - SplitWriter(相同)
OSCAR v1
- 读取器
- 写入器
- SplitReader
- SplitWriter
依赖关系
~12MB
~248K SLoC