#icu #unicode #localization #native-bindings #build-environment

rust_icu_ucnv

对 Unicode 的 ICU4C 库的本地绑定。ucnv.h

11 个稳定版本 (3 个主要版本)

5.0.0 2024年2月21日
4.2.3 2023年10月6日
4.0.0 2023年5月2日
3.0.0 2022年11月10日
2.0.0 2022年1月11日

#401 in 国际化(i18n)

Download history 12/week @ 2024-03-08 1/week @ 2024-03-15 7/week @ 2024-03-29

每月68 次下载

Apache-2.0

1.5MB
44K SLoC

rust_icu:ICU 库的底层 rust 语言绑定

项目 描述
测试 Test status
源代码 https://github.com/google/rust_icu
README https://github.com/google/rust_icu/blob/main/README.md
覆盖率 查看报告
文档 https://docs.rs/crate/rust_icu

这是一个为 C(即 ICU4C)编写的国际组件(ICU)库的低级本地 rust 语言绑定的库。

如果您只想快速了解如何下载和安装,请参阅快速入门指南

有关 ICU 库的详细信息,请参阅ICU 项目主页。 库的源代码可以在 Github 上查看

此文件的最新版本可在https://github.com/google/rust_icu 上找到。

这不是一个官方支持的谷歌产品。

为什么包装 ICU(而不是做其他事情)?

  • rust 语言国际化 页面确认,rust 中的 ICU 支持不完善,因此拥有一个功能性的包装器有助于推进技术前沿。

  • 例如 Fuchsia 这样的项目已经依赖于 ICU,而 rust 绑定允许以简单的方式使用 Unicode 算法,而无需承担更多依赖项。

  • ICU4X 等项目在接口上的合作可能允许在未来无缝过渡到全 rust 实现。

仓库结构

该仓库组织为一个 rust 包的 cargo 工作区。每个包对应 ICU4C 库 C API 中的相应头文件。有关头文件中函数覆盖的详细信息,请参阅覆盖率报告

描述
rust_icu 顶级包。如果您只想使用所有功能,请包含此包。
rust_icu_common 常用的绑定底层封装。
rust_icu_intl 实现了 ECMA 402 建议的 API。
rust_icu_sys 底层绑定代码
rust_icu_ubrk 支持文本边界分析。实现了来自 ICU 库的 ubrk.h C API 头文件。
rust_icu_ucal ICU 日历。实现了来自 ICU 库的 ucal.h C API 头文件。
rust_icu_ucol 排序支持。实现了来自 ICU 库的 ucol.h C API 头文件。
rust_icu_udat ICU 日期和时间。实现了来自 ICU 库的 udat.h C API 头文件。
rust_icu_udata ICU 二进制数据。实现了来自 ICU 库的 udata.h C API 头文件。
rust_icu_uenum ICU 枚举。实现了来自 ICU 库的 uenum.h C API 头文件。主要是 UEnumeration 和相关函数。
rust_icu_uformattable 支持区域敏感的列表格式化。实现了来自 ICU 库的 uformattable.h C API 头文件。自 0.3.1 版本开始。
rust_icu_ulistformatter 支持区域敏感的列表格式化。实现了来自 ICU 库的 ulistformatter.h C API 头文件。
rust_icu_uloc 支持区域设置。实现了来自 ICU 库的 uloc.h C API 头文件。
rust_icu_umsg 支持 MessageFormat。实现了来自 ICU 库的 umsg.h C API 头文件。
rust_icu_unorm2 支持 Unicode 正规化。实现了来自 ICU 库的 unorm2.h C API 头文件。
rust_icu_unum 支持数字格式化。实现了来自 ICU 库的 unum.h C API 头文件。
rust_icu_unumberformatter 支持数字格式化(现代)。实现了来自 ICU 库的 unumberformatter.h C API 头文件。
rust_icu_upluralrules 支持区域敏感的复数规则。实现了来自 ICU 库的 upluralrules.h C API 头文件。
rust_icu_ustring ICU 字符串。实现了来自 ICU 库的 ustring.h C API 头文件。
rust_icu_utext 文本操作。实现了来自 ICU 库的 utext.h C API 头文件。
rust_icu_utrans 支持转写。实现了来自 ICU 库的 utrans.h C API 头文件。

限制

今天生成的 Rust 语言绑定方法将语言绑定的可用性限制在可用的 C API 上。ICU 库的 C API(在文档中有时称为 ICU4C)与 ICU C++ API 不同。

本库提供的绑定应用范围有限,这意味着它可能有时无法直接使用。如果您遇到这种情况,请随时提交错误报告给我们修复。拉取请求欢迎。

我们今天知道的限制如下

  • 无法保证功能一致性。 在 C++ 中实现的某些算法在 C 中没有等效版本,反之亦然。如果您使用 C++ 库,这通常不会成为问题,因为您可以选择适合您的任何 API 界面。但对于 rust 绑定来说,这是一个问题,因为我们目前只能使用 C API。

  • 新的 C++ 算法的实现不一定总是反映在 C API 中,导致 C 和 C++ API 界面之间的功能差异。例如,请参见此错误

  • 虽然使用 icu_config 功能可能会让您在一定程度上自由地自动生成针对您自己的库版本的绑定,但我们仍然需要保留一个明确支持的 ICU 版本列表,以确保包装器稳定。

兼容性

兼容性保证如下

  1. 对所有感兴趣的特性的所有组合都针对最后三个主要的 ICU 库版本执行了自动测试。
  2. 针对 docs.rs 系统使用的 ICU 库版本执行了自动测试(因此可以构建文档)。
rust_icu 版本 ICU 63.x ICU 70.1 ICU 71.1 ICU 72.1 ICU 73.1 ICU 74.1
3.0
4.0
5.0

特性

rust_icu 库旨在与 cargo 编译,并启用以下特性之一。使用 cargo 编译允许我们在 rust_icu_sys 库中的自定义 build.rs 文件中执行某些库检测,并根据您的构建环境调整构建过程。然而,由于并非每个开发环境都会使用相同的设置,我们选择提供某些特性(如下)作为配置选项。

虽然我们的意图是保持以下特性列表与 Cargo.toml 中的实际列表 保持一致,但该列表可能会定期过时。

要使用任何特性,您需要在您打算使用的所有 rust_icu_* 风格的包中激活该特性。不这样做将导致编译结果令人困惑。

特性 默认? 描述
use-bindgen 如果设置,cargo 将运行 bindgen 根据安装的 ICU 库生成绑定。程序 icu-config 必须在 $PATH 中才能工作。将来可能还有其他自动检测库的方法,例如通过 pkg-config
重命名 如果设置,将带有版本号附加到 ICU 绑定上生成。在 ICU 中称为“重命名”,通常只有在需要链接到特定 ICU 版本时才需要,例如绕过需要链接不同 ICU 版本的情况。有关重命名的讨论,请参见 ICU 文档bindgen 未使用时,必须使用此功能。
icu_config 如果设置为true,将使用二进制icu-config来配置库。如果您不希望build.rs尝试自动检测构建环境,请关闭此功能。如果您构建环境以不同的方式配置ICU,则可能需要跳过此功能。此功能仅在启用bindgen功能时才有意义;否则不起作用。
icu_version_in_env 如果设置为true,将为环境变量RUST_ICU_MAJOR_VERSION_NUMBER中指定的ICU版本创建绑定,该变量在构建时对cargo可用。有关如何使用此功能的详细信息,请参阅以下部分。此功能仅在未使用bindgen功能时才有意义;否则不起作用。
静态 如果设置为true,将静态链接ICU库(以及标准的C++动态库)。如果您在非标准目录中有ICU的构建版本,可以使用RUST_ICU_LINK_SEARCH_DIR添加额外的搜索路径。

先决条件

必需

  • rust_icu源代码

    使用git克隆

    git clone https://github.com/google/rust_icu.git
    
  • rustup

    https://rustup.rs安装。用于设置工具链默认值。这将安装cargo

  • Clang

    您必须安装Clang以访问正确的头文件。

  • ICU库开发环境

    您将需要访问ICU库,以便为rust_icu绑定链接。有关如何构建和安装ICU的详细信息,请参阅ICU简介

    有时,ICU库可能已预安装在您的系统上,或者您可以从包管理程序中提取库。但是,这并不一定是您需要链接到您正在开发的程序中的库。简而言之,您需要在系统上的某个位置备有ICU的开发版本。

    如果您的情况与我们的配置非常相似,并且您想从源代码构建ICU,我们有一个可能可以帮助您快速入门的快速入门安装

可选

  • 如果您想使用基于make的构建和测试,则需要GNU Make。

    安装GNU Make超出了此文件的范围。请参阅您操作系统的安装说明。

  • 如果您决定使用基于docker的构建和测试,则需要docker

    安装docker超出了此文件的范围,请参阅docker安装说明以获取详细信息。由于安装docker会对主机机器造成干扰,您的公司可能有关于如何正确安装docker的内部文档。

  • 如果使用icu_config功能,则需要icu-config实用程序。

    您需要在您的系统上安装ICU库,使得二进制icu-config位于您的$PATH中。构建脚本将使用它来发现库设置并生成正确的链接脚本。如果您使用该功能但未找到icu-config

  • 如果使用bindgen功能,则需要bindgen实用程序。

    有关如何安装它的说明,请参阅bindgen用户指南

  • 如果使用bindgen功能,则需要rustfmt实用程序。

    有关如何安装的说明,请参阅https://github.com/rust-lang/rustfmt

测试

运行 rust_icu 测试有一些选项。

Cargo

使用 cargo 构建 和 测试是构建和测试 Rust 代码的标准方法。

rust_icu 库的情况下,你可能发现你的系统默认的 ICU 开发包很古老,在这种情况下,你需要构建自己的 ICU4C 库(有关详细信息,请参阅下文)。这将使你不得不传递环境变量 PKG_CONFIG_PATHLD_LIBRARY_PATH 以帮助构建代码定位和使用你构建的库,而不是系统默认的库。

以下测试都应该构建并通过。请注意,因为所需的库位于自定义位置,我们需要在运行测试时设置 LD_LIBRARY_PATH,以及 PKG_CONFIG_PATH

如果你发现你可以使用你的系统默认的 ICU 安装,你可以安全地省略这两个库。

env PKG_CONFIG_PATH="$HOME/local/lib/pkgconfig" \
    LD_LIBRARY_PATH="$HOME/local/lib" \
        bash -c 'cargo test'

如果你认为上述方法太麻烦,可以考虑尝试基于 Docker 的方法。

GNU Make

如果你喜欢使用 GNU 的方法,你可能喜欢 GNU Make 方法。

最简单的方法是使用 GNU Make 并运行

make test

如果你正在处理 rust_icu,已经设置了所有开发环境,并希望有一个简短的运行测试的方法,你可能想使用这种方法。

基于 Docker

请参阅上文的 可选依赖部分

要运行 rust_icu 源代码的隔离构建和测试,请发出以下命令

make docker-test

这将在本地的机器上运行基于 Docker 的源代码构建和测试。这是一种测试你的代码是否与特定的 ICU 版本兼容的好方法。

已有技术

已经考虑了大量的已有技术。

目前的情况是,我首先想自己做一些实验,然后看看这项工作是否可以整合到上述任何一项工作中。

另请参阅

假设

对于 ICU 绑定,存在几种竞争性的方法。然而,根据 rust 的 RFC 存储库中的信息,至少看来,Rust 中 ICU 的支持工作仍在进行中。

以下是制作此库时所做的假设

  • 我们需要一个完整、可重用且无痛苦的 ICU 低级库用于 Rust。

    这意味着我们必须依赖于外部 ICU 库,而不是将库本身与绑定代码一起携带。这种模块化允许库的最终用户使用他们选择的 ICU 库,并将其纳入他们的相应系统。

  • 此库的工作将不会重新实现任何 ICU 算法。

    ICU 的重新实现可能需要成千上万的工程师年才能完成。对于像 ICU 这样微妙和复杂的 API,我认为维护单个中央实现可能是更好的投资回报。

    此外,此库的存在并不会阻止重新实现。如果有人想尝试重新实现 ICU,那也很好。

  • 此库应作为 Rust 实现的低级基础。

    低级 ICU API 可能不适合最终用户。应该在这些绑定之上构建一个 Rust-ful API。可能最好将此功能细分为 crate,以符合 Rust 开发者的预期。

    我会很高兴地重用上述提到的一些项目中已经做出的逻辑细分。

  • 我想探讨与现有实现结合的方式,以构建对Rust的完整ICU支持。

    希望能够将今天可用的所有Rust绑定的优点结合成一个统一的Rust库。我随时可以讨论选项。

    我之所以开始一个独立的项目而不是贡献到“现有技术”部分中列出的任何项目中,仅仅是因为我想尝试在Rust中生成的库会是什么样子。

附加说明

快速入门指南

在您开始之前,请确保满足以下先决条件

  • 您已安装Docker,并且它可以在您的系统上运行。
  • 您有GNU Make。
  • 您有git
  • 您有足够的磁盘空间。构建环境的Docker镜像有点大,所以需要几吉字节来存放所有这些。
  • 您有互联网连接。

从那里,以下命令序列将检出、构建和测试rust_icu源代码。

mkdir -p ~/tmp
cd tmp
git clone https://github.com/google/rust_icu
cd rust_icu
make docker-test

您现在可以修改代码和测试。您可以通过运行以下命令重新运行编译和测试循环:make docker-test

ICU安装说明

以下说明遵循来自ICU存储库的“树外”构建说明。

假设

以下说明不是自包含的。它们假设

  • 您已经设置了系统,以便有效地遵循ICU构建说明。这需要一些前期时间投资。
  • 您可以从源代码构建ICU,并且您的项目可以访问ICU源代码。
  • 您的设置是Linux,有一些非常具体的设置对我有效。您可能能够根据您的情况对其进行调整。

编译

mkdir -p $HOME/local
mkdir -p $HOME/tmp
cd $HOME/tmp
git clone https://github.com/unicode-org/icu.git
mkdir icu4c-build
cd icu4c-build
../icu/icu4c/source/runConfigureICU Linux \
  --prefix=$HOME/local \
  --enable-static
make
make install
make doc

如果编译成功完成,目录$HOME/local/bin将包含文件icu-config,这是发现库配置所必需的。

您还可以

make check

运行单元测试。

如果您将$HOME/local/bin添加到$PATH,或将icu-config移动到您的$PATH中列出的目录,您应该可以编译rust_icu

ICU重建说明

如果您更改了ICU库的配置,并且有意从源代码重新构建库,您可能需要添加一个中间的make clean命令。

由于ICU构建不是封闭的,这确保构建目录中没有旧编译过程的残留物。例如,如果您升级ICU库的主版本,则需要这样做。如果您忘记这样做,编译ICU、链接或运行程序时可能会遇到意外的错误。

为特定版本的ICU编译

假设

  • 您已选择功能集[重命名,icu_version_in_env]o

或者:

  • 您已手动验证了兼容性矩阵中您想要使用的ICU版本和功能集有“是”。

以下是一个测试示例。

env PKG_CONFIG_PATH="$HOME/local/lib/pkgconfig" \
    LD_LIBRARY_PATH="$HOME/local/lib" \
    RUST_ICU_MAJOR_VERSION_NUMBER=65 \
        bash -c 'cargo test'

以下是将rust_icu编译到现有的ICU版本66的尚未测试的示例。

env PKG_CONFIG_PATH="$HOME/local/lib/pkgconfig" \
    LD_LIBRARY_PATH="$HOME/local/lib" \
    RUST_ICU_MAJOR_VERSION_NUMBER=66 \
        bash -c 'cargo test'

添加对ICU新版本的支持。

一般来说,只要支持icu-config方法,在假设底层C API没有太大差异的情况下,应该可以生成ICU库的新版本的库包装器。

使ICU 65.1易于支持的方法包括以下步骤。以下,$RUST_ICU_SOURCE_DIR是您提取ICU源代码的目录。

  • 从源代码下载新的ICU版本到$RUST_ICU_SOURCE_DIR
  • 按照上述编译步骤使用新版本构建ICU库。
  • 从输出目录$RUST_ICU_SOURCE_DIR/target/debug/build/rust_icu_sys-...获取文件lib.rs,将其重命名为lib_66.rs(如果您使用的是ICU版本66,否则请附加您使用的版本)。
  • 将文件保存到目录$RUST_ICU_SOURCE_DIR/rust_icu_sys/bindgen,这是包含预生成的源文件的目录。

如果build.rs被更改以包含更多功能,则可能需要重新生成这些文件lib_XX.rs

添加更多绑定

当添加更多ICU包装器时,请确保执行以下操作

  • 检查rust_icu_sys/build.rsrust_icu_sys/bindgen/run_bindgen.sh,然后将适当的行添加到BINDGEN_SOURCE_MODULES,然后添加到BINDGEN_ALLOWLIST_FUNCTIONSBINDGEN_ALLOWLIST_TYPES

启用特定功能集进行测试

这是一个在ICU 67上运行docker测试的示例,其中启用了icu_version_in_envrenaming功能,而不是默认值。请注意,参数大多通过环境变量传递到运行docker-test的容器中。

make DOCKER_TEST_ENV=rust_icu_testenv-67 \
  RUST_ICU_MAJOR_VERSION_NUMBER=67 \
  DOCKER_TEST_CARGO_TEST_ARGS='--no-default-features --features icu_version_in_env,renaming' \
  docker-test

一些说明

  • 环境变量RUST_ICU_MAJOR_VERSION_NUMBER用于功能icu_version_in_env,以指导cargo使用文件rust_icu_sys/bindgen/lib_67.rs作为预构建的bindgen源文件,而不是尝试动态生成。
  • 环境变量DOCKER_TEST_CARGO_TEST_ARGS用于将命令行参数传递给在docker容器中使用的cargo test。环境变量被原样传递给cargo test,不带引号,因此环境变量中的单词在cargo test中成为单独的参数。
  • 环境变量 DOCKER_TEST_ENV 是用于运行测试的 Docker 容器的基名。容器 rust_icu_testenv-67 是一个包含预安装环境以及 ICU 67 编译版本的容器镜像。

刷新静态 bindgen 文件

需要 docker。

定期运行 make static-bindgen 以刷新静态生成的 bindgen 文件(命名为 lib_XX.rs,其中 XX 是 ICU 版本,例如 67),这些文件位于 rust_icu_sys/bindgen 目录中,当关闭 bindgen 功能时使用。

调用此 make 目标将修改带有较新版本的文件 lib_XX.rs 的本地签出。提交一个 pull request 并进行检查。

有关为何需要此操作的更多信息,请参阅 bindgen README.md

依赖关系

~0.5–1.1MB
~25K SLoC