12 个稳定版本
2.0.9 | 2020年10月31日 |
---|---|
2.0.8 | 2020年9月23日 |
2.0.3 | 2020年8月25日 |
1.1.1 | 2020年8月13日 |
0.1.1 | 2020年8月11日 |
#723 在 数据库接口
每月下载量:44
125KB
2K SLoC
Covid-19 研究与分析数据库
此存储库包含用于生成 Covid-19 数据库以供研究和分析的工具,以及预生成的数据库链接。数据库是一个自包含的 Sqlite 数据库,可在任何平台上使用。
该库中的程序可在您的机器上运行,以从互联网下载数据并组装自己的数据库。整个过程大约需要两分钟,您可以根据需要多次运行以获取最新数据。或者,您还可以下载每日生成的数据库。
下载数据库
您可以从这里下载压缩数据库: covid19db.zip。
此文件每日自动更新。
示例用途
这些数据用于 堪萨斯州 Covid-19 项目。它具有 每日自动更新的图表,提供对各种数据的独特视角。
使用数据
除了 Sqlite 命令行工具外,这里还有一些使用数据的技巧
- DB Browser for SQLite 是一个不错的 SQLite 图形探索器。
- 您可以在 Microsoft Excel 和 LibreOffice 中使用 SQLite。搜索有关如何做到这一点的信息。
请注意,所包含的数据可能需要请求或提供归因。请在您的工作中为数据原始来源(例如,《纽约时报》)和聚合者提供信用。
包含的数据和来源
您可以在 dbschema.rs 中找到完整的数据库模式。那里定义的视图旨在成为访问数据库的主要方式。还提供了一个 sqlx
的 Rust API,用于选择表格。直接源数据下载 URL 在 loader.rs。
以下是来源
cdataset
来自于 COVID-19 派生数据集项目,该项目包含了约翰霍普金斯大学、纽约时报和 ECDC 的数据。这个项目整合了“综合”集,因此您几乎肯定会希望在每个查询中都使用WHERE dataset='foo'
,以便仅使用单个数据集。select distinct dataset from cdataset order by dataset;
将显示可用的数据集。请参阅上方的派生数据集链接,以了解来源和在那里进行的增强。在此系统中读取时还进行了额外的增强。- 县与它们的 FIPS 代码进行交叉引用,该代码被添加到 cdataset 视图中。
- 添加了一个 儒略日 字段,以便于计算。它每天简单地增加 1,并且在许多情况下简化了基于日期的算术。
- 县人口之前没有填充,现在使用约翰霍普金斯大学的数据(见下文)在
factbook_population
列中填充。 - 之前没有人口数据的县现在执行并添加了每 10 万人的计算。
- 源数据在无新病例/死亡的日子(所有增量值都为零)删除了给定数据集和位置的数据行。为了便于统计,这些行被添加回来,因此给定位置的数据系列应该每天都有一个行。
- 源数据使用 NULL 而不是 0 表示增量。这些表中已将其更正为 0。
- 位置数据被拉入一个单独的表,并通过视图重新引入,将磁盘上的表大小减半。
loc_lookup
来自于 约翰霍普金斯数据集,大部分已在上述cdataset
中包含。该表表示UID_ISO_FIPS_LookUp_Table.csv
文件,其中包含整合到cdataset
或可单独查询的县级人口数据。rtlive
来自 rt.live。已添加儒略日和 YYYY-MM-DD 日期到 CSV 源;没有进行其他更改。covidtracking
来自 COVID Tracking 项目数据下载。已添加儒略日和 Y/M/D 日期到 CSV 源;没有进行其他更改。- Covid Tracking 项目提供了一个单独的美国文件,该文件将数据汇总为美国每天一行。由于不解析另一个文件,因此有一个视图
covidtracking_us
使用covidtracking
中的数据来提供相同类型的视图。
- Covid Tracking 项目提供了一个单独的美国文件,该文件将数据汇总为美国每天一行。由于不解析另一个文件,因此有一个视图
owid
来自于 我们的世界数据 COVID-19 数据集。已添加儒略日和 Y/M/D 日期到 CSV 源。
其他资源
以下为潜在的未来集成
- https://www.cdc.gov/nchs/nvss/vsrr/covid_weekly/index.htm
- https://www.cdc.gov/nchs/nvss/vsrr/covid_weekly/index.htm
- https://catalog.data.gov/dataset/covid-19-cases-summarized-by-age-group-and-gender
- https://aws.amazon.com/data-exchange/covid-19/?cards.sort-by=item.additionalFields.order&cards.sort-order=asc
- https://duckduckgo.com/?t=ffab&q=covid-19+data+set+by+age&ia=web
- https://data.cdc.gov/Case-Surveillance/COVID-19-Case-Surveillance-Public-Use-Data/vbim-akqf
- https://docs.safegraph.com/docs/social-distancing-metrics
- https://www.cuebiq.com/visitation-insights-mobility-index/
- https://www.google.com/covid19/mobility/
- https://www.cdc.gov/covid-data-tracker/index.html
- https://ourworldindata.org/coronavirus-testing
构建自己的数据库
这样的命令应该可以完成它
git clone https://github.com/jgoerzen/covid19db
cd covid19db
cargo run --release
然后你将在工作目录中看到一个名为 covid19.db
的文件。只需使用 Sqlite 即可。
使用这些命令,你可以自己验证这些结果。如果你还没有安装 Rust,请参阅 Rust 安装 页面。
Rust 库
目前它相当简略,但你可以 浏览文档。
数据库和 API 稳定性
这是一个快速变化的领域,数据提供者相当频繁地更改其模式。我试图减轻影响。如果你避免像 SELECT *
这样的操作,而是显式命名你的列,那么在 API 发生变化的情况下,你对自己的影响将会最小化。
用户
该项目由 堪萨斯州 COVID-19 图表项目 使用,也可能有其他人使用。
版权和致谢
This code is Copyright (c) 2019-2020 John Goerzen
This program is free software: you can redistribute it and/or modify
it under the terms of the GNU General Public License as published by
the Free Software Foundation, either version 3 of the License, or
(at your option) any later version.
This program is distributed in the hope that it will be useful,
but WITHOUT ANY WARRANTY; without even the implied warranty of
MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
GNU General Public License for more details.
You should have received a copy of the GNU General Public License
along with this program. If not, see <http://www.gnu.org/licenses/>.
该存储库仅包含获取数据所需的工具,不包含数据本身,尽管数据可能在其他地方的 Github 上可用。如果你使用该程序累积的数据或下载它,你可能需要承认数据来源。以下是一些详细信息
cdataset - 纽约时报
一般来说,我们正在将此数据公开发布,供广泛、非商业的公共使用,包括医疗和公共卫生研究人员、政策制定者、分析师和当地新闻媒体。
如果你使用此数据,必须在任何出版物中将其归因于“《纽约时报》”。如果你需要有关数据的更详细描述,可以说“数据来自《纽约时报》,基于州和地方卫生机构的报告。”
如果你将其用于在线演示,我们希望您链接到我们的美国追踪页面 https://www.nytimes.com/interactive/2020/us/coronavirus-us-cases.html。
如果你使用此数据,请通过 [email protected] 告知我们。
请参阅我们的 LICENSE 了解此数据使用的完整条款。
本许可与 Creative Commons Attribution-NonCommercial 4.0 国际许可共同适用,许可方应参考该许可(CC BY-NC)以了解许可范围。
cdataset 和 loc_lookup - 约翰霍普金斯大学
- 该数据集由约翰霍普金斯大学代表其系统工程系统科学中心根据 Creative Commons Attribution 4.0 国际许可(CC BY 4.0)许可。版权所有 2020 约翰霍普金斯大学。
- 将数据归因于“约翰霍普金斯大学系统工程系统科学中心(CSSE)的 COVID-19 数据库”或简称“JHU CSSE COVID-19 数据”,网址:https://github.com/CSSEGISandData/COVID-19。
- 对于使用数据的出版物,请引用以下出版物:“Dong E, Du H, Gardner L. An interactive web-based dashboard to track COVID-19 in real time. Lancet Inf Dis. 20(5):533-534. doi: 10.1016/S1473-3099(20)30120-1”
rtlive - rt.live
我们只是要求您将 Rt.live 作为数据来源,并在适当的地方进行链接。
covidtracking - COVID-19 追踪项目
欢迎您复制、分发和开发来自《大西洋》的 COVID 追踪项目的数据和网站内容,用于所有医疗保健、医疗、新闻和非商业用途,包括任何个人、编辑、学术或研究目的。
《大西洋》的COVID追踪项目数据和网站内容采用Creative Commons CC BY-NC-4.0许可发布,要求用户在分享我们的数据或网站内容时注明来源和许可类型(CC BY-NC-4.0)。《大西洋》的COVID追踪项目还允许任何支持医疗或医学研究(包括公共卫生和盈利性组织的机构使用)或新闻使用(由非营利性或盈利性组织)的此数据和使用网站内容的衍生使用。根据Creative Commons许可,不允许其他商业用途,并且需要《大西洋》的COVID追踪项目的许可。
owid - 我们的世界数据
"我们所有的研究和可视化内容都可以免费用于任何目的。" 来源
可视化与文本:我们所有的图表、地图和文本都采用非常宽松的“Creative Commons”(CC)许可:CC-BY许可。其中的BY代表“署名”,这意味着您可以自由地将其中的任何有用的内容用于您的工作。您只需要提供Our World in Data和我们的基础来源的信用(见下文)。
Harvey县检测数据
这些数据是手动从堪萨斯州卫生和环境部门以及Harvey县卫生部门导入的。
依赖项
~33–47MB
~807K SLoC