#dataset #numbers #business #analysis #json-format #data #abn

app simple-abns

简化 ABR 的澳大利亚商业号码数据集以方便分析

1 个不稳定版本

0.1.0 2024 年 4 月 26 日

#1428命令行工具

MIT 许可证

24KB
526 代码行

simple-abns

simple-abns 解析 ABR 的澳大利亚商业号码数据集并将其转换为更简单的 JSON 格式。

您可以从 此处下载转换后的数据集。请注意,此数据集不会自动更新 - 如果需要刷新,请提交问题。

您还可以在 ./entity_types.json 中找到 ABR 所使用的实体类型的机器可读名称。

如果您想自己生成数据集,需要下载原始 XML 数据,并将所有 20 个块放置在 ./raw 中。simple-abns 将解析它们,并将每个 ABN 记录作为单独的一行打印出来。您可以使用以下命令查看进度和压缩输出:

cargo run --release | pv -ls 18M | zstd -T0 -9 > simple-abns.jsonl.zst

示例

输入:

<ABR recordLastUpdatedDate="20240412" replaced="N">
	<ABN status="ACT" ABNStatusFromDate="19991101">88712649015</ABN>
	<EntityType>
		<EntityTypeInd>SGE</EntityTypeInd>
		<EntityTypeText>State Government Entity</EntityTypeText>
	</EntityType>
	<MainEntity>
		<NonIndividualName type="MN">
			<NonIndividualNameText>STATE EMERGENCY SERVICE (NSW)</NonIndividualNameText>
		</NonIndividualName>
		<BusinessAddress>
			<AddressDetails>
				<State>NSW</State>
				<Postcode>2500</Postcode>
			</AddressDetails>
		</BusinessAddress>
	</MainEntity>
	<GST status="ACT" GSTStatusFromDate="20000701" />
	<OtherEntity>
		<NonIndividualName type="TRD">
			<NonIndividualNameText>NEW SOUTH WALES STATE EMERGENCY SERVICE</NonIndividualNameText>
		</NonIndividualName>
	</OtherEntity>
</ABR>

输出

{
  "abn": "88712649015",
  "status": "Active",
  "status_since": "1999-11-01",
  "last_updated": "2024-04-12",
  "entity_name": {
    "type": "NonIndividual",
    "name": "STATE EMERGENCY SERVICE (NSW)"
  },
  "entity_type": "SGE",
  "trade_names": [
    "NEW SOUTH WALES STATE EMERGENCY SERVICE"
  ],
  "postcode": "2500",
  "state": "NSW",
  "gst_status": "Active",
  "gst_status_since": "2000-07-01"
}

依赖项

~3.5–4.5MB
~91K SLoC