7 个版本 (重大更新)

0.9.0	2019年3月3日
0.8.0	2019年1月2日
0.7.0	2018年2月7日
0.6.0	2017年9月22日
0.3.0	2017年6月22日

#878 in 文本处理

7,605 每月下载量
用于 25 个工具包 (2 直接)

MIT/Apache

73KB
1.5K SLoC

UNIC：Rust 的 Unicode 和国际化工具包

https://github.com/open-i18n/rust-unic

UNIC 是一个旨在为 Rust 编程语言开发组件的项目，以提供高质量且易于使用的 Unicode 和国际化数据及算法工具包。换句话说，它就像是 Rust 的 ICU，完全用 Rust 编写，大部分在 safe 模式下，但在可能的情况下也受益于 unsafe 模式的性能提升。

请参阅 UNIC 变更日志了解最新版本的详细信息。

项目目标

UNIC 的目标是提供对 Unicode 和国际化功能的所有级别的访问，从 Unicode 字符属性开始，到 Unicode 文本处理算法，再到基于 Unicode Common Locale 数据库（CLDR）的更高级（基于地区）的过程。

根据需要，还实现了其他标准和最佳实践，如 IETF RFCs。

项目状态

目前 UNIC 正在快速发展：API 在 master 分支上频繁更新，每个 0.x 版本之间可能会有 API 破坏。请参阅公开问题了解计划变更。

我们预计将在 2018 年发布 1.0 版本，之后将保持 API 稳定，前几年可能每年更新一两个 API。

设计目标

UNIC的主要目标是通过易于使用的API提供可靠的功能。因此，添加的新组件可能在性能优化方面做得不够好，但将包含足够的测试来证明其符合标准，并附带示例以展示用户如何使用它们来解决常见需求。
UNIC组件的下一个主要目标是性能和低二进制和内存占用。特别是，优化ASCII和其他常见情况的运行时将鼓励适应性，而无需担心减慢常规开发过程。
在可能的情况下，组件将保证提供一致的数据和算法。使用跨组件测试来捕捉实现之间的任何不一致，而不会减慢开发过程。

组件及其组织

UNIC 组件采用层次结构组织，从 unic 根开始，包含 主要组件。每个主要组件反过来可能包含一些 次要组件。

主要组件的API是为库的最终用户设计的，并预计将提供广泛的文档，并附有代码示例。

与主要组件相反，次要组件作为数据和高层次算法的提供者，其API预计将更具性能，并提供多种访问数据的方式。

UNIC超级包

unic 超级包是所有UNIC（主要）组件的集合，提供了一种轻松访问所有功能的方法，当需要所有或大多数组件时，无需逐个导入组件。此包确保所有导入的组件在算法和数据一致性方面兼容。

主要的代码示例和跨组件集成测试都在这个包下实现。

主要组件

unic-char：Unicode字符工具。
unic-ucd：Unicode字符数据库（UAX#44）。
unic-bidi：Unicode双向算法（UAX#9）。
unic-normal：Unicode规范化形式（UAX#15）。
unic-segment：Unicode文本分割算法（UAX#29）。
unic-idna：Unicode IDNA兼容性处理（UTS#46）。
unic-emoji：Unicode表情符号（UTS#51）。

应用

unic-cli: UNIC 命令行工具

代码组织：合并仓库

使用合并仓库包含这些组件的一些原因包括

更快地开发。实现新的 Unicode/i18n 组件通常依赖于其他（更低级别）组件，而这些组件可能需要进行调整——例如暴露新的 API、修复错误等——这些可以在更少的周期和更短的时间内进行开发、测试和审查。
实现完整性。对其他组件的多个依赖意味着组件需要在一定程度上相互一致。许多 Unicode 算法由更小的算法组成，假设算法的所有部分都使用相同的 Unicode 数据版本。违反这一假设可能会导致不一致性和难以捕捉的漏洞。在合并仓库中，在开发期间以及跨组件（集成）测试中，可以更好地达到更高的完整性。
按需付费。小型组件（基本 crate），仅依赖于它们所需的组件，允许用户只将项目中所消耗的内容引入项目中。
共享启动。大量扩展 Unicode/i18n 功能取决于将源 Unicode/locale 数据转换为目标编程语言的格式化格式。在合并仓库中，更容易维护这些启动工具、扩展覆盖范围，并使用更高效的数据结构。

文档

如何使用 UNIC

在 Cargo.toml

[dependencies]
unic = "0.9.0"  # This has Unicode 10.0.0 data and algorithms

以及在 main.rs

extern crate unic;

use unic::ucd::common::is_alphanumeric;
use unic::bidi::BidiInfo;
use unic::normal::StrNormalForm;
use unic::segment::{GraphemeIndices, Graphemes, WordBoundIndices, WordBounds, Words};
use unic::ucd::normal::compose;
use unic::ucd::{is_cased, Age, BidiClass, CharAge, CharBidiClass, StrBidiClass, UnicodeVersion};

fn main() {

    // Age

    assert_eq!(Age::of('A').unwrap().actual(), UnicodeVersion { major: 1, minor: 1, micro: 0 });
    assert_eq!(Age::of('\u{A0000}'), None);
    assert_eq!(
        Age::of('\u{10FFFF}').unwrap().actual(),
        UnicodeVersion { major: 2, minor: 0, micro: 0 }
    );

    if let Some(age) = '🦊'.age() {
        assert_eq!(age.actual().major, 9);
        assert_eq!(age.actual().minor, 0);
        assert_eq!(age.actual().micro, 0);
    }

    // Bidi

    let text = concat![
        "א",
        "ב",
        "ג",
        "a",
        "b",
        "c",
    ];

    assert!(!text.has_bidi_explicit());
    assert!(text.has_rtl());
    assert!(text.has_ltr());

    assert_eq!(text.chars().nth(0).unwrap().bidi_class(), BidiClass::RightToLeft);
    assert!(!text.chars().nth(0).unwrap().is_ltr());
    assert!(text.chars().nth(0).unwrap().is_rtl());

    assert_eq!(text.chars().nth(3).unwrap().bidi_class(), BidiClass::LeftToRight);
    assert!(text.chars().nth(3).unwrap().is_ltr());
    assert!(!text.chars().nth(3).unwrap().is_rtl());

    let bidi_info = BidiInfo::new(text, None);
    assert_eq!(bidi_info.paragraphs.len(), 1);

    let para = &bidi_info.paragraphs[0];
    assert_eq!(para.level.number(), 1);
    assert_eq!(para.level.is_rtl(), true);

    let line = para.range.clone();
    let display = bidi_info.reorder_line(para, line);
    assert_eq!(
        display,
        concat![
            "a",
            "b",
            "c",
            "ג",
            "ב",
            "א",
        ]
    );

    // Case

    assert_eq!(is_cased('A'), true);
    assert_eq!(is_cased('א'), false);

    // Normalization

    assert_eq!(compose('A', '\u{030A}'), Some('Å'));

    let s = "ÅΩ";
    let c = s.nfc().collect::<String>();
    assert_eq!(c, "ÅΩ");

    // Segmentation

    assert_eq!(
        Graphemes::new("a\u{310}e\u{301}o\u{308}\u{332}").collect::<Vec<&str>>(),
        &["a\u{310}", "e\u{301}", "o\u{308}\u{332}"]
    );

    assert_eq!(
        Graphemes::new("a\r\nb🇺🇳🇮🇨").collect::<Vec<&str>>(),
        &["a", "\r\n", "b", "🇺🇳", "🇮🇨"]
    );

    assert_eq!(
        GraphemeIndices::new("a̐éö̲\r\n").collect::<Vec<(usize, &str)>>(),
        &[(0, "a̐"), (3, "é"), (6, "ö̲"), (11, "\r\n")]
    );

    assert_eq!(
        Words::new(
            "The quick (\"brown\") fox can't jump 32.3 feet, right?",
            |s: &&str| s.chars().any(is_alphanumeric),
        ).collect::<Vec<&str>>(),
        &["The", "quick", "brown", "fox", "can't", "jump", "32.3", "feet", "right"]
    );

    assert_eq!(
        WordBounds::new("The quick (\"brown\")  fox").collect::<Vec<&str>>(),
        &["The", " ", "quick", " ", "(", "\"", "brown", "\"", ")", " ", " ", "fox"]
    );

    assert_eq!(
        WordBoundIndices::new("Brr, it's 29.3°F!").collect::<Vec<(usize, &str)>>(),
        &[
            (0, "Brr"),
            (3, ","),
            (4, " "),
            (5, "it's"),
            (9, " "),
            (10, "29.3"),
            (14, "°"),
            (16, "F"),
            (17, "!")
        ]
    );
}

您可以在 examples 和 tests 目录中找到更多示例。（随着 UNIC 的扩展，还将添加更多...）

许可证

根据您选择的以下许可证之一授权

Apache License，版本 2.0（LICENSE-APACHE 或 https://apache.ac.cn/licenses/LICENSE-2.0）
MIT 许可证（LICENSE-MIT 或 https://open-source.org.cn/licenses/MIT）

任选其一。

贡献

除非您明确声明，否则根据 Apache-2.0 许可证定义的，您有意提交以包含在作品中并由您提交的任何贡献，应按上述方式双授权，不附加任何额外条款或条件。

行为准则

UNIC 项目遵循 Rust 行为准则。您可以在 CODE_OF_CONDUCT.md 或在线 https://rust-lang.net.cn/conduct.html 中找到其副本。

`lib.rs`:

UNIC — UCD — 字符年龄

unic 的组成部分：为 Rust 提供的 Unicode 和国际化 Crate。

从 Unicode 字符数据库 (UCD) 获取字符年龄属性的访问器

https://www.unicode.org/reports/tr44/#Character_Age

unic-ucd-age

7 个版本 (重大更新)

UNIC：Rust 的 Unicode 和国际化工具包

项目目标

项目状态

设计目标

组件及其组织

UNIC超级包

主要组件

应用

代码组织：合并仓库

文档

如何使用 UNIC

许可证

贡献

行为准则

`lib.rs`:

UNIC — UCD — 字符年龄

依赖关系

7 个版本 (重大更新)

UNIC：Rust 的 Unicode 和国际化工具包

项目目标

项目状态

设计目标

组件及其组织

UNIC超级包

主要组件

应用

代码组织：合并仓库

文档

如何使用 UNIC

许可证

贡献

行为准则

lib.rs:

UNIC — UCD — 字符年龄

依赖关系

`lib.rs`: