#parquet-file #python #json #csv #convert #convert-json #command-line-interface

parquet-py

Parquet 的简单命令行界面 & Python API

2 个版本

0.2.1-beta2024 年 7 月 28 日
0.2.0-beta2024 年 7 月 28 日

587编码

Download history 215/week @ 2024-07-28 4/week @ 2024-08-04

每月 219 次下载

自定义许可

13KB
156

PyPI version

Parquet-Py

Parquet-Py 是一个简单的命令行界面 & Python API,旨在简化与 Parquet 文件的交互。它允许用户将 Parquet 文件转换为 CSV、JSON、列表和迭代器,以便在 Python 应用程序中进行轻松操作和访问。

底层使用 Rust 绑定,Parquet-Py 提供了一种快速高效的方式处理 Parquet 文件,使其非常适合转换或处理大型数据集。

特性

  • 将 Parquet 转换为 CSV:将您的 Parquet 文件转换为 CSV 格式,以便在电子表格应用程序中轻松查看和处理。
  • 将 Parquet 转换为 JSON / JSON Lines:轻松将您的 Parquet 文件转换为 JSON 数组或 JSON Lines 格式,以便快速检查或处理。
  • 可迭代的 Parquet 行:通过迭代器访问 Parquet 文件行,允许在不将整个文件加载到内存中的情况下进行高效的逐行处理。
  • 将 Parquet 转换为 Python 列表:将您的 Parquet 文件转换为 Python 列表,其中列表中的每一行都表示为字典。

安装

PyPI

pip install parquet-py

使用方法

命令行界面

[!WARNING]

CLI 仍在开发中,可能不完全功能。

未来版本可能发生破坏性更改。

[!TIP]

可以使用 --input 选项指定多个输入文件。例如,--input file1.parquet --input file2.parquet

将 Parquet 转换为 CSV

要将 Parquet 文件转换为 CSV 文件,请使用 parq convert 命令。

parq convert --input path/to/your/file.parquet --format csv --output example.csv

将 Parquet 转换为 JSON 数组

要将 Parquet 文件转换为 JSON 数组,请使用 parq convert 命令。

parq convert --input path/to/your/file.parquet --format json --output example.json

将 Parquet 转换为 JSON Lines

要将 Parquet 文件转换为 JSON Lines,请使用 parq convert 命令。

parq convert --input path/to/your/file.parquet --format jsonl --output example.jsonl

Python

遍历 Parquet 行

要遍历 Parquet 文件的行,请使用 iter_rows 函数。这允许在不将整个文件加载到内存中的情况下进行高效的逐行处理。

from parq import to_iter

# Path to your Parquet file
file_path = "path/to/your/file.parquet"

# Iterate over Parquet rows
for row in to_iter(file_path):
    print(row)

将 Parquet 转换为 CSV 字符串

要将 Parquet 文件转换为 CSV 字符串,请使用 to_csv_str 函数。

from parq import to_csv_str

# Path to your Parquet file
file_path = "path/to/your/file.parquet"

# Convert to CSV string
csv_str = to_csv_str(file_path)
print(csv_str)

将 Parquet 转换为 JSON 字符串

要将 Parquet 文件转换为 JSON 字符串,请使用 to_json_str 函数。

from parq import to_json_str

# Path to your Parquet file
file_path = "path/to/your/file.parquet"

# Convert to JSON string
json_str = to_json_str(file_path)
print(json_str)

将 Parquet 文件转换为 Python 列表

要将 Parquet 文件转换为 Python 列表,其中每行由列表中的字典表示,请使用 to_list 函数。

from parq import to_list

# Path to your Parquet file
file_path = "path/to/your/file.parquet"

# Convert to Python list
data_list = to_list(file_path)
print(len(data_list))

依赖项

~19-26MB
~537K SLoC