2 个版本
0.2.1-beta | 2024 年 7 月 28 日 |
---|---|
0.2.0-beta | 2024 年 7 月 28 日 |
587 在 编码
每月 219 次下载
13KB
156 行
Parquet-Py
Parquet-Py 是一个简单的命令行界面 & Python API,旨在简化与 Parquet 文件的交互。它允许用户将 Parquet 文件转换为 CSV、JSON、列表和迭代器,以便在 Python 应用程序中进行轻松操作和访问。
底层使用 Rust 绑定,Parquet-Py 提供了一种快速高效的方式处理 Parquet 文件,使其非常适合转换或处理大型数据集。
特性
- 将 Parquet 转换为 CSV:将您的 Parquet 文件转换为 CSV 格式,以便在电子表格应用程序中轻松查看和处理。
- 将 Parquet 转换为 JSON / JSON Lines:轻松将您的 Parquet 文件转换为 JSON 数组或 JSON Lines 格式,以便快速检查或处理。
- 可迭代的 Parquet 行:通过迭代器访问 Parquet 文件行,允许在不将整个文件加载到内存中的情况下进行高效的逐行处理。
- 将 Parquet 转换为 Python 列表:将您的 Parquet 文件转换为 Python 列表,其中列表中的每一行都表示为字典。
安装
PyPI
pip install parquet-py
使用方法
命令行界面
[!WARNING]
CLI 仍在开发中,可能不完全功能。
未来版本可能发生破坏性更改。
[!TIP]
可以使用
--input
选项指定多个输入文件。例如,--input file1.parquet --input file2.parquet
。
将 Parquet 转换为 CSV
要将 Parquet 文件转换为 CSV 文件,请使用 parq convert
命令。
parq convert --input path/to/your/file.parquet --format csv --output example.csv
将 Parquet 转换为 JSON 数组
要将 Parquet 文件转换为 JSON 数组,请使用 parq convert
命令。
parq convert --input path/to/your/file.parquet --format json --output example.json
将 Parquet 转换为 JSON Lines
要将 Parquet 文件转换为 JSON Lines,请使用 parq convert
命令。
parq convert --input path/to/your/file.parquet --format jsonl --output example.jsonl
Python
遍历 Parquet 行
要遍历 Parquet 文件的行,请使用 iter_rows
函数。这允许在不将整个文件加载到内存中的情况下进行高效的逐行处理。
from parq import to_iter
# Path to your Parquet file
file_path = "path/to/your/file.parquet"
# Iterate over Parquet rows
for row in to_iter(file_path):
print(row)
将 Parquet 转换为 CSV 字符串
要将 Parquet 文件转换为 CSV 字符串,请使用 to_csv_str
函数。
from parq import to_csv_str
# Path to your Parquet file
file_path = "path/to/your/file.parquet"
# Convert to CSV string
csv_str = to_csv_str(file_path)
print(csv_str)
将 Parquet 转换为 JSON 字符串
要将 Parquet 文件转换为 JSON 字符串,请使用 to_json_str
函数。
from parq import to_json_str
# Path to your Parquet file
file_path = "path/to/your/file.parquet"
# Convert to JSON string
json_str = to_json_str(file_path)
print(json_str)
将 Parquet 文件转换为 Python 列表
要将 Parquet 文件转换为 Python 列表,其中每行由列表中的字典表示,请使用 to_list
函数。
from parq import to_list
# Path to your Parquet file
file_path = "path/to/your/file.parquet"
# Convert to Python list
data_list = to_list(file_path)
print(len(data_list))
依赖项
~19-26MB
~537K SLoC