#covid-19 #coronavirus

bin+lib covid19db

Covid-19 数据集构建和访问工具

12 个稳定版本

2.0.9 2020年10月31日
2.0.8 2020年9月23日
2.0.3 2020年8月25日
1.1.1 2020年8月13日
0.1.1 2020年8月11日

#723数据库接口

每月下载量:44

GPL-3.0+

125KB
2K SLoC

Covid-19 研究与分析数据库

build tests docs

此存储库包含用于生成 Covid-19 数据库以供研究和分析的工具,以及预生成的数据库链接。数据库是一个自包含的 Sqlite 数据库,可在任何平台上使用。

该库中的程序可在您的机器上运行,以从互联网下载数据并组装自己的数据库。整个过程大约需要两分钟,您可以根据需要多次运行以获取最新数据。或者,您还可以下载每日生成的数据库。

下载数据库

您可以从这里下载压缩数据库: covid19db.zip

此文件每日自动更新。

示例用途

这些数据用于 堪萨斯州 Covid-19 项目。它具有 每日自动更新的图表,提供对各种数据的独特视角。

使用数据

除了 Sqlite 命令行工具外,这里还有一些使用数据的技巧

  • DB Browser for SQLite 是一个不错的 SQLite 图形探索器。
  • 您可以在 Microsoft Excel 和 LibreOffice 中使用 SQLite。搜索有关如何做到这一点的信息。

请注意,所包含的数据可能需要请求或提供归因。请在您的工作中为数据原始来源(例如,《纽约时报》)和聚合者提供信用。

包含的数据和来源

您可以在 dbschema.rs 中找到完整的数据库模式。那里定义的视图旨在成为访问数据库的主要方式。还提供了一个 sqlx 的 Rust API,用于选择表格。直接源数据下载 URL 在 loader.rs

以下是来源

  • cdataset 来自于 COVID-19 派生数据集项目,该项目包含了约翰霍普金斯大学、纽约时报和 ECDC 的数据。这个项目整合了“综合”集,因此您几乎肯定会希望在每个查询中都使用 WHERE dataset='foo',以便仅使用单个数据集。 select distinct dataset from cdataset order by dataset; 将显示可用的数据集。请参阅上方的派生数据集链接,以了解来源和在那里进行的增强。在此系统中读取时还进行了额外的增强。
    • 县与它们的 FIPS 代码进行交叉引用,该代码被添加到 cdataset 视图中。
    • 添加了一个 儒略日 字段,以便于计算。它每天简单地增加 1,并且在许多情况下简化了基于日期的算术。
    • 县人口之前没有填充,现在使用约翰霍普金斯大学的数据(见下文)在 factbook_population 列中填充。
    • 之前没有人口数据的县现在执行并添加了每 10 万人的计算。
    • 源数据在无新病例/死亡的日子(所有增量值都为零)删除了给定数据集和位置的数据行。为了便于统计,这些行被添加回来,因此给定位置的数据系列应该每天都有一个行。
    • 源数据使用 NULL 而不是 0 表示增量。这些表中已将其更正为 0。
    • 位置数据被拉入一个单独的表,并通过视图重新引入,将磁盘上的表大小减半。
  • loc_lookup 来自于 约翰霍普金斯数据集,大部分已在上述 cdataset 中包含。该表表示 UID_ISO_FIPS_LookUp_Table.csv 文件,其中包含整合到 cdataset 或可单独查询的县级人口数据。
  • rtlive 来自 rt.live。已添加儒略日和 YYYY-MM-DD 日期到 CSV 源;没有进行其他更改。
  • covidtracking 来自 COVID Tracking 项目数据下载。已添加儒略日和 Y/M/D 日期到 CSV 源;没有进行其他更改。
    • Covid Tracking 项目提供了一个单独的美国文件,该文件将数据汇总为美国每天一行。由于不解析另一个文件,因此有一个视图 covidtracking_us 使用 covidtracking 中的数据来提供相同类型的视图。
  • owid 来自于 我们的世界数据 COVID-19 数据集。已添加儒略日和 Y/M/D 日期到 CSV 源。

其他资源

以下为潜在的未来集成

构建自己的数据库

这样的命令应该可以完成它

git clone https://github.com/jgoerzen/covid19db
cd covid19db
cargo run --release

然后你将在工作目录中看到一个名为 covid19.db 的文件。只需使用 Sqlite 即可。

使用这些命令,你可以自己验证这些结果。如果你还没有安装 Rust,请参阅 Rust 安装 页面。

Rust 库

目前它相当简略,但你可以 浏览文档

数据库和 API 稳定性

这是一个快速变化的领域,数据提供者相当频繁地更改其模式。我试图减轻影响。如果你避免像 SELECT * 这样的操作,而是显式命名你的列,那么在 API 发生变化的情况下,你对自己的影响将会最小化。

用户

该项目由 堪萨斯州 COVID-19 图表项目 使用,也可能有其他人使用。

版权和致谢

This code is Copyright (c) 2019-2020 John Goerzen

This program is free software: you can redistribute it and/or modify
it under the terms of the GNU General Public License as published by
the Free Software Foundation, either version 3 of the License, or
(at your option) any later version.

This program is distributed in the hope that it will be useful,
but WITHOUT ANY WARRANTY; without even the implied warranty of
MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
GNU General Public License for more details.

You should have received a copy of the GNU General Public License
along with this program.  If not, see <http://www.gnu.org/licenses/>.

该存储库仅包含获取数据所需的工具,不包含数据本身,尽管数据可能在其他地方的 Github 上可用。如果你使用该程序累积的数据或下载它,你可能需要承认数据来源。以下是一些详细信息

cdataset - 纽约时报

一般来说,我们正在将此数据公开发布,供广泛、非商业的公共使用,包括医疗和公共卫生研究人员、政策制定者、分析师和当地新闻媒体。

如果你使用此数据,必须在任何出版物中将其归因于“《纽约时报》”。如果你需要有关数据的更详细描述,可以说“数据来自《纽约时报》,基于州和地方卫生机构的报告。”

如果你将其用于在线演示,我们希望您链接到我们的美国追踪页面 https://www.nytimes.com/interactive/2020/us/coronavirus-us-cases.html

如果你使用此数据,请通过 [email protected] 告知我们。

请参阅我们的 LICENSE 了解此数据使用的完整条款。

本许可与 Creative Commons Attribution-NonCommercial 4.0 国际许可共同适用,许可方应参考该许可(CC BY-NC)以了解许可范围。

source

cdataset 和 loc_lookup - 约翰霍普金斯大学

  1. 该数据集由约翰霍普金斯大学代表其系统工程系统科学中心根据 Creative Commons Attribution 4.0 国际许可(CC BY 4.0)许可。版权所有 2020 约翰霍普金斯大学。
  2. 将数据归因于“约翰霍普金斯大学系统工程系统科学中心(CSSE)的 COVID-19 数据库”或简称“JHU CSSE COVID-19 数据”,网址:https://github.com/CSSEGISandData/COVID-19
  3. 对于使用数据的出版物,请引用以下出版物:“Dong E, Du H, Gardner L. An interactive web-based dashboard to track COVID-19 in real time. Lancet Inf Dis. 20(5):533-534. doi: 10.1016/S1473-3099(20)30120-1”

source

rtlive - rt.live

我们只是要求您将 Rt.live 作为数据来源,并在适当的地方进行链接。

source

covidtracking - COVID-19 追踪项目

欢迎您复制、分发和开发来自《大西洋》的 COVID 追踪项目的数据和网站内容,用于所有医疗保健、医疗、新闻和非商业用途,包括任何个人、编辑、学术或研究目的。

《大西洋》的COVID追踪项目数据和网站内容采用Creative Commons CC BY-NC-4.0许可发布,要求用户在分享我们的数据或网站内容时注明来源和许可类型(CC BY-NC-4.0)。《大西洋》的COVID追踪项目还允许任何支持医疗或医学研究(包括公共卫生和盈利性组织的机构使用)或新闻使用(由非营利性或盈利性组织)的此数据和使用网站内容的衍生使用。根据Creative Commons许可,不允许其他商业用途,并且需要《大西洋》的COVID追踪项目的许可。

source

owid - 我们的世界数据

"我们所有的研究和可视化内容都可以免费用于任何目的。" 来源

可视化与文本:我们所有的图表、地图和文本都采用非常宽松的“Creative Commons”(CC)许可:CC-BY许可。其中的BY代表“署名”,这意味着您可以自由地将其中的任何有用的内容用于您的工作。您只需要提供Our World in Data和我们的基础来源的信用(见下文)。

source

Harvey县检测数据

这些数据是手动从堪萨斯州卫生和环境部门以及Harvey县卫生部门导入的。

依赖项

~33–47MB
~807K SLoC