#csv #zip #population #data #split #statistics #codes

app geochunk

基于ZIP人口统计分割CSV数据

3个版本 (1个稳定版)

1.0.0 2022年5月25日
0.1.5 2017年10月20日
0.1.4 2017年10月20日

#255压缩

MIT/Apache

265KB
425 代码行

geochunk:将数据分成相似人口大小的数据块

geochunk旨在用于分布式系统。它提供了一个从邮政编码到“地理块”的确定性映射,您可以信赖其稳定性。地理块将尝试近似您指定的种群大小。

请参阅关于geochunk的这篇博客,了解介绍和一些漂亮的图片。

用法

运行 geochunk --help 以获取使用说明。

geochunk - Partition data sets by estimated population.

Usage:
  geochunk export <type> <population>
  geochunk csv <type> <population> <input-column>
  geochunk (--help | --version)

Options:
  --help        Show this screen.
  --version     Show version.

Commands:
  export        Export the geochunk mapping for use by another program.
  csv           Add a geochunk column to a CSV file (used in a pipeline).

Types:
  zip2010       Use 2010 Census zip code population data.

工作原理

请参阅Jupyter笔记本,其中解释了算法。我们使用人口普查数据构建可变长度的邮政编码前缀,然后尽可能地以平衡人口大小的分组方式将这些前缀组合在一起。

安装

适用于OS X和Linux的二进制版本可用。要安装这些,请解压缩文件并将 geochunk 复制到 /usr/local/bin 或您的 PATH 中的另一个目录。

unzip geochunk-v0.1.4-osx.zip
sudo cp geochunk /usr/local/bin/

您还可以从源安装

# Mac and Linux.
curl https://sh.rustup.rs -sSf | sh
cargo install geochunk

# On Windows, see https://www.rustup.rs/ for instructions on installing
# Rust, then run:
cargo install geochunk

Windows尚未经过测试,但应该可以正常工作,可能需要一些调整。如果不行,请随时提交问题、PR或AppVeyor构建配置。通常,Rust命令行工具应在Windows上运行良好。

依赖项

~7–18MB
~220K SLoC