#unicode #unicode-text #category #character-property #text

unic-ucd-category

UNIC — Unicode 字符数据库 — 通用类别

5 个版本 (重大更改)

0.9.0 2019 年 3 月 3 日
0.8.0 2019 年 1 月 2 日
0.7.0 2018 年 2 月 7 日
0.6.0 2017 年 9 月 22 日
0.5.0 2017 年 8 月 5 日

#331 in 国际化(i18n)

Download history 6120/week @ 2024-04-02 6656/week @ 2024-04-09 8411/week @ 2024-04-16 7836/week @ 2024-04-23 6979/week @ 2024-04-30 6758/week @ 2024-05-07 6582/week @ 2024-05-14 8431/week @ 2024-05-21 8581/week @ 2024-05-28 8326/week @ 2024-06-04 7872/week @ 2024-06-11 6305/week @ 2024-06-18 8643/week @ 2024-06-25 7421/week @ 2024-07-02 6984/week @ 2024-07-09 5107/week @ 2024-07-16

每月 29,533 次下载
用于 50 个库(12 个直接使用)

MIT/Apache

76KB
1K SLoC

UNIC — UCD — 类别

unic 的一个组件:Rust 的 Unicode 和国际化库。

Unicode General_Category

代码点的 General_Category 属性为该代码点提供了最一般的分类。它通常基于该代码点所分配字符的主要特征确定。例如,该字符是字母、标记、数字、标点符号还是符号,以及如果是这样,属于什么类型?其他 General_Category 值定义了未分配给常规图形字符的代码点的分类,包括诸如私有用途、控制、代理代码点、保留未分配等状态。

许多字符有多种用途,并且并非所有这些情况都能完全通过 General_Category 值来捕捉。例如,拉丁、希腊或希伯来字母的 General_Category 值不试图涵盖(或排除)这些字母作为罗马数字或其他数值系统中的数值使用。相反,ASCII 数字 0..9 的 General_Category 为 Nd(十进制数字)既不试图涵盖(或排除)这些数字在各种正字法中的偶尔用作字母。简单的说,General_Category 是字符的第一级,最常用的分类。

有关 General_Category 属性的更多信息,请参阅 Unicode 标准中的第 4 章,字符属性

-- Unicode® 标准附件 #44 - Unicode 字符数据库

依赖关系