#unic #unicode #character-property #unicode-text #case-folding #text

unic-ucd-case

UNIC — Unicode 字符数据库 — 大小写属性

4 个版本 (破坏性更新)

0.9.0 2019年3月3日
0.8.0 2019年1月2日
0.7.0 2018年2月7日
0.6.0 2017年9月22日

国际化 (i18n) 中排名 388

Download history 208/week @ 2024-04-08 241/week @ 2024-04-15 224/week @ 2024-04-22 205/week @ 2024-04-29 260/week @ 2024-05-06 202/week @ 2024-05-13 221/week @ 2024-05-20 276/week @ 2024-05-27 211/week @ 2024-06-03 202/week @ 2024-06-10 187/week @ 2024-06-17 223/week @ 2024-06-24 131/week @ 2024-07-01 427/week @ 2024-07-08 233/week @ 2024-07-15 230/week @ 2024-07-22

每月下载量 1,044
用于 25 包(直接使用2个)

MIT/Apache 许可

94KB
1.5K SLoC

UNIC:Rust 的 Unicode 和国际化包

UNIC-logo

Travis Rust-1.45+ Unicode-10.0.0 Release Crates.io Documentation Gitter

https://github.com/open-i18n/rust-unic

UNIC 是一个旨在为 Rust 编程语言开发组件的项目,以提供高质量、易于使用的 Unicode 和国际化数据及算法的包。换句话说,它类似于 Rust 中的 ICU,完全用 Rust 编写,大部分在 safe 模式下,但在可能的情况下也受益于 unsafe 模式的性能提升。

请参阅 UNIC 更新日志 了解最新发布详情。

项目目标

UNIC 的目标是提供对 Unicode 和国际化功能的所有级别的访问,从 Unicode 字符属性开始,到处理文本的 Unicode 算法,再到基于 Unicode Common Locale 数据库 (CLDR) 的更高级(基于区域设置)的过程。

根据需要,还实现了其他标准和最佳实践,如 IETF RFC。

项目状态

目前 UNIC 正在积极开发中:API 在 master 分支上频繁更新,每个 0.x 版本之间都可能出现 API 破坏。请参阅 公开问题 了解计划变更。

我们预计将在 2018 年发布 1.0 版本,并在之后保持 API 的稳定性,前几年可能每年更新一两次 API。

设计目标

  1. UNIC的主要目标是通过易于使用的API提供可靠的功能。因此,添加的新组件可能没有针对性能进行很好的优化,但将会有足够的测试来展示符合标准,并提供示例来展示用户如何使用它们来解决常见需求。

  2. UNIC组件的下一个主要目标是性能和低二进制和内存占用。特别是,优化ASCII和其他常见情况的运行时将鼓励适应,而无需担心减缓常规开发流程。

  3. 在尽可能的范围内,组件将提供一致的数据和算法。使用跨组件测试来捕获实现之间可能存在的任何不一致,而不会减缓开发流程。

组件及其组织

UNIC 组件 具有层次结构组织,从unic根目录开始,包含主要组件。每个主要组件反过来可能包含一些次要组件

主要组件的API是为库的最终用户设计的,并期望进行广泛的文档记录,并附有代码示例。

与主要组件相反,次要组件作为更高层级的数据和算法的提供者,其API预计将具有更好的性能,并可能提供多种访问数据的方式。

UNIC超级组件

unic超级组件是一个所有UNIC(主要)组件的集合,提供了一个方便的方式来访问所有功能,当所有或许多功能都需要时,而不是逐个导入组件。这个组件确保所有导入的组件在算法和数据一致性方面都是兼容的。

主要代码示例和跨组件集成测试是在这个组件下实现的。

主要组件

应用

代码组织:合并仓库

以下是一些合并仓库中这些组件的原因:

  • 更快的发展。实现新的 Unicode/i18n 组件通常需要依赖于其他(较低级别)的组件,而这些组件可能又需要调整——暴露新的 API、修复错误等——这些可以在更少的周期和更短的时间内进行开发、测试和审查。

  • 实现完整性。对其他组件的多个依赖意味着组件需要在某种程度上相互一致。许多 Unicode 算法由较小的算法组成,假设算法的所有部分都使用相同的 Unicode 数据版本。违反这个假设可能会导致不一致和难以捕捉的错误。在合并仓库中,可以在开发期间以及跨组件(集成)测试期间达到更好的完整性。

  • 按需付费。小型组件(基本 crate),仅依赖于它们需要的组件,允许用户仅将他们在项目中消耗的内容引入。

  • 共享引导。大量扩展 Unicode/i18n 功能依赖于将源 Unicode/locale 数据转换为目的地编程语言的格式化格式。在合并仓库中,更容易维护这些引导工具、扩展覆盖范围,并使用更好的数据结构以获得更高的效率。

文档

如何使用 UNIC

Cargo.toml

[dependencies]
unic = "0.9.0"  # This has Unicode 10.0.0 data and algorithms

以及在 main.rs

extern crate unic;

use unic::ucd::common::is_alphanumeric;
use unic::bidi::BidiInfo;
use unic::normal::StrNormalForm;
use unic::segment::{GraphemeIndices, Graphemes, WordBoundIndices, WordBounds, Words};
use unic::ucd::normal::compose;
use unic::ucd::{is_cased, Age, BidiClass, CharAge, CharBidiClass, StrBidiClass, UnicodeVersion};

fn main() {

    // Age

    assert_eq!(Age::of('A').unwrap().actual(), UnicodeVersion { major: 1, minor: 1, micro: 0 });
    assert_eq!(Age::of('\u{A0000}'), None);
    assert_eq!(
        Age::of('\u{10FFFF}').unwrap().actual(),
        UnicodeVersion { major: 2, minor: 0, micro: 0 }
    );

    if let Some(age) = '🦊'.age() {
        assert_eq!(age.actual().major, 9);
        assert_eq!(age.actual().minor, 0);
        assert_eq!(age.actual().micro, 0);
    }

    // Bidi

    let text = concat![
        "א",
        "ב",
        "ג",
        "a",
        "b",
        "c",
    ];

    assert!(!text.has_bidi_explicit());
    assert!(text.has_rtl());
    assert!(text.has_ltr());

    assert_eq!(text.chars().nth(0).unwrap().bidi_class(), BidiClass::RightToLeft);
    assert!(!text.chars().nth(0).unwrap().is_ltr());
    assert!(text.chars().nth(0).unwrap().is_rtl());

    assert_eq!(text.chars().nth(3).unwrap().bidi_class(), BidiClass::LeftToRight);
    assert!(text.chars().nth(3).unwrap().is_ltr());
    assert!(!text.chars().nth(3).unwrap().is_rtl());

    let bidi_info = BidiInfo::new(text, None);
    assert_eq!(bidi_info.paragraphs.len(), 1);

    let para = &bidi_info.paragraphs[0];
    assert_eq!(para.level.number(), 1);
    assert_eq!(para.level.is_rtl(), true);

    let line = para.range.clone();
    let display = bidi_info.reorder_line(para, line);
    assert_eq!(
        display,
        concat![
            "a",
            "b",
            "c",
            "ג",
            "ב",
            "א",
        ]
    );

    // Case

    assert_eq!(is_cased('A'), true);
    assert_eq!(is_cased('א'), false);

    // Normalization

    assert_eq!(compose('A', '\u{030A}'), Some('Å'));

    let s = "ÅΩ";
    let c = s.nfc().collect::<String>();
    assert_eq!(c, "ÅΩ");

    // Segmentation

    assert_eq!(
        Graphemes::new("a\u{310}e\u{301}o\u{308}\u{332}").collect::<Vec<&str>>(),
        &["a\u{310}", "e\u{301}", "o\u{308}\u{332}"]
    );

    assert_eq!(
        Graphemes::new("a\r\nb🇺🇳🇮🇨").collect::<Vec<&str>>(),
        &["a", "\r\n", "b", "🇺🇳", "🇮🇨"]
    );

    assert_eq!(
        GraphemeIndices::new("a̐éö̲\r\n").collect::<Vec<(usize, &str)>>(),
        &[(0, ""), (3, ""), (6, "ö̲"), (11, "\r\n")]
    );

    assert_eq!(
        Words::new(
            "The quick (\"brown\") fox can't jump 32.3 feet, right?",
            |s: &&str| s.chars().any(is_alphanumeric),
        ).collect::<Vec<&str>>(),
        &["The", "quick", "brown", "fox", "can't", "jump", "32.3", "feet", "right"]
    );

    assert_eq!(
        WordBounds::new("The quick (\"brown\")  fox").collect::<Vec<&str>>(),
        &["The", " ", "quick", " ", "(", "\"", "brown", "\"", ")", " ", " ", "fox"]
    );

    assert_eq!(
        WordBoundIndices::new("Brr, it's 29.3°F!").collect::<Vec<(usize, &str)>>(),
        &[
            (0, "Brr"),
            (3, ","),
            (4, " "),
            (5, "it's"),
            (9, " "),
            (10, "29.3"),
            (14, "°"),
            (16, "F"),
            (17, "!")
        ]
    );
}

您可以在 examplestests 目录下找到更多示例。(随着 UNIC 的扩展还将添加更多...)

许可证

根据您的选择,许可如下:

任选其一。

贡献

除非您明确声明,否则根据 Apache-2.0 许可证定义,您提交的任何有意包含在作品中的贡献都将双许可如上,不附加任何额外的条款或条件。

行为准则

UNIC 项目遵循 Rust 行为准则。您可以在 CODE_OF_CONDUCT.md 或在线 https://www.rust-lang.net.cn/conduct.html 中找到一份副本。


lib.rs:

UNIC — UCD — 大小写字符属性

unic 的一个组件:Rust 的 Unicode 和国际化 crate。

Unicode 字符数据库(UCD)中大小写转换(大小写折叠)字符属性的访问器。

依赖项