#wiktionary #data #language #parse #edition #dictionary #structured

parse_wiktionary_cs

将维基词典的捷克语版页面解析为结构化数据

1 个不稳定版本

使用旧Rust 2015

0.1.0 2018年11月2日

#2 in #wiktionary

自定义许可

155KB
3.5K SLoC

解析cs.wiktionary.org的维基词典

将维基词典的捷克语版页面解析为结构化数据。

Parse Wiki Text

以下信息适用于所有维基词典的语言版本。有关特定语言版本的信息,请参阅其文档。

简介

维基词典是一个包含数百万条词汇的词典,包含关于许多语言中词汇和短语的广泛数据。词典数据在免费许可下分发,允许在其他应用中使用。不幸的是,它是以一种格式编写的,阻止了在其他应用中使用。该格式仅设计用于转换为维基词典本身显示的确切HTML格式,而不是解析为具有其他用途或以其他格式显示的语义数据。

然而,该格式包含足够结构化的有意义数据,可以困难地将大部分数据解析为结构化数据。Parse Wiktionary 执行了将维基词典条目解析为结构化格式的艰巨任务,该格式可以轻松用于查询条目的详细信息,用于不同的目的,并以不同的格式展示。由于维基词典的每个语言版本都非常不同,因此为维基词典的每个版本都有一个不同的版本,并且它们都有不同的输出格式。目前Parse Wiktionary存在于维基词典的英语(en.wiktionary.org)、德语(de.wiktionary.org)和捷克语(cs.wiktionary.org)版本。

限制

维基词典中的信息的不同部分以不同的格式编写,这些格式在规律性和复杂性方面有所不同。

  • 某些部分具有高度规律化的格式。这些部分直接解析为表示条目中声明的事实语义数据,而不是声明它们的格式。
  • 某些部分具有可管理的复杂性但并不完全一致的格式。这些部分不解析为语义数据,而是解析为自由格式文档。这些文档是一系列元素,其中任何支持的元素都可以出现,并且可以以任何顺序出现。还有一个表示无法解析的wiki文本的元素。文档可以通过显示所有元素来显示,或者在这些情况下,如果文档符合足够的规律化格式,可以进一步解析为语义数据。
  • 某些部分没有一致的格式,或者具有过于复杂和动态的格式,该格式随时间变化,因为模板被添加或编辑。这些部分根本不解析。但是,Parse Wiktionary可能会在输出中放置表示这些部分存在的标志。

在所有版本的维基词典中,标题都遵循一种规范格式。因此,标题被解析为语义上的。然而,章节的内容可能或可能不在规范格式中,这取决于章节。因此,许多章节被解析为自由形式的文档。然而,这种自由形式的文档是存储在具有语义意义的字段中的。这意味着尽管文档的内容不是语义化的,但它们以语义化的方式组织,允许应用程序选择要获取哪些章节以及如何处理每个章节。

长期目标是消除所有这些限制,并将维基词典中的所有信息解析为结构化语义数据。这需要维基词典编辑者的合作。可以为每个章节创建一个标准格式,并鼓励作者遵循标准格式。解析维基词典可以被集成到维基词典中,并在编辑过程中验证条目,显示有关任何不符合标准格式的警告。还可以将更多数据传输到维基数据,维基数据从一开始就被设计用来存储语义数据。

依赖关系

~0.6–1.2MB
~29K SLoC