1个不稳定版本
0.1.0 | 2022年3月6日 |
---|
#914 in 文本处理
25KB
112 行
pi_ucd
概述
unicode字符函数,获取字符的语言区间段。及根据文字排版需要,判断字符是否为单字字符或字母字符
参考: http://www.cnblogs.com/chenwenbiao/archive/2011/08/17/2142718.html
以下是unicode中常见语言的区间段
- 0000 007F C0控制符及基本拉丁文 C0 控制符和基本拉丁文
- 0080 00FF C1控制符及拉丁文补充-1 C1 控制符和拉丁文补充-1
- 0100 017F 拉丁文扩展-A 拉丁文扩展-A
- 0180 024F 拉丁文扩展-B 拉丁文扩展-B
- 0250 02AF 国际音标扩展 IPA 扩展
- 02B0 02FF 空白修饰字母 空白修饰字母
- 0300 036F 结合用读音符号 结合用读音符号
- 0370 03FF 希腊文及科普特文 希腊文和科普特文
- 0400 04FF 西里尔字母 西里尔字母
- 0500 052F 西里尔字母补充 西里尔字母补充
- 0530 058F 亚美尼亚语 亚美尼亚语
- 0590 05FF 希伯来文 希伯来文
- 0600 06FF 阿拉伯文 阿拉伯文
- 0700 074F 叙利亚文 叙利亚文
- 0750 077F 阿拉伯文补充 阿拉伯文补充
- 0780 07BF 马尔代夫语 马尔代夫语
- 07C0 07FF 西非书面语言 N'Ko 西非书面语言 N'Ko
- 0800 085F 阿维斯塔语及巴列维语 阿维斯塔语和巴列维语
- 0860 087F 美达尼克语 美达尼克语
- 0880 08AF 撒马利亚语 撒马利亚语
- 0900 097F 天城文书 天城文书
- 0980 09FF 孟加拉语 孟加拉语
- 0A00 0A7F 锡克教文 锡克教文
- 0A80 0AFF 古吉拉特文 古吉拉特文
- 0B00 0B7F 奥里亚文 奥里亚文
- 0B80 0BFF 泰米尔文 泰米尔文
- 0C00 0C7F 泰卢固文 泰卢固文
- 0C80 0CFF 卡纳达文 卡纳达文
- 0D00 0D7F 德拉维族语 德拉维族语
- 0D80 0DFF 僧伽罗语 僧伽罗语
- 0E00 0E7F 泰文 泰文
- 0E80 0EFF 老挝文 老挝文
- 0F00 0FFF 藏文 藏文
- 1000 109F 缅甸语 缅甸语
- 10A0 10FF 格鲁吉亚语 格鲁吉亚语
- 1100 11FF 朝鲜文 朝鲜文
- 1200 137F 埃塞俄比亚语 埃塞俄比亚语
- 1380 139F 埃塞俄比亚语补充 埃塞俄比亚语补充
- 13A0 13FF 切罗基语 切罗基语
- 1400 167F 统一加拿大土著语音节 统一加拿大土著语音节
- 1680 169F 欧甘字母 欧甘字母
- 16A0 16FF 如尼文 如尼文
- 1700 171F 塔加拉语 塔加拉语
- 1720 173F Hanunóo Hanunóo
- 1740 175F Buhid Buhid
- 1760 177F Tagbanwa Tagbanwa
- 1780 17FF 高棉语 高棉语
- 1800 18AF 蒙古文 蒙古文
- 18B0 18FF Cham Cham
- 1900 194F Limbu Limbu
- 1950 197F 德宏泰语 Tai Le
- 1980 19DF 新傣仂语 New Tai Lue
- 19E0 19FF 高棉语记号 Kmer Symbols 高棉语记号
- 1A00 1A1F Buginese Buginese
- 1A20 1A5F Batak Batak
- 1A80 1AEF Lanna Lanna
- 1B00 1B7F 巴厘语 巴厘语
- 1B80 1BB0 巽他语 Sundanese
- 1BC0 1BFF Pahawh Hmong Pahawh Hmong
- 1C00 1C4F 雷布查语 Lepcha
- 1C50 1C7F Ol Chiki Ol Chiki
- 1C80 1CDF 曼尼普尔语 Meithei/Manipuri
- 1D00 1D7F 语音学扩展 语音学扩展
- 1D80 1DBF 语音学扩展补充 语音扩展补充
- 1DC0 1DFF 结合用读音符号补充 结合用读音符号
- 1E00 1EFF 拉丁文扩充附加 拉丁文扩充
- 1F00 1FFF 希腊语扩充 希腊语扩充
- 2000 206F 常用标点 常用标点
- 2070 209F 上标及下标 上标及下标
- 20A0 20CF 货币符号 货币符号
- 20D0 20FF 组合用记号 组合用记号
- 2100 214F 字母式符号 字母式符号
- 2150 218F 数字形式 数字形式
- 2190 21FF 箭头 箭头
- 2200 22FF 数学运算符 数学运算符
- 2300 23FF 杂项工业符号 杂项工业符号
- 2400 243F 控制图片 控制图片
- 2440 245F 光学识别符 光学识别符
- 2460 24FF 封闭式字母数字 封闭式字母数字
- 2500 257F 制表符 制表符
- 2580 259F 方块元素 方块元素
- 25A0 25FF 几何图形 几何图形
- 2600 26FF 杂项符号 杂项符号
- 2700 27BF 印刷符号 印刷符号
- 27C0 27EF 杂项数学符号-A 杂项数学符号-A
- 27F0 27FF 追加箭头-A 追加箭头-A
- 2800 28FF 盲文点字模型 盲文点字模型
- 2900 297F 追加箭头-B 追加箭头-B
- 2980 29FF 杂项数学符号-B 杂项数学符号-B
- 2A00 2AFF 追加数学运算符 追加数学运算符
- 2B00 2BFF 杂项符号和箭头 杂项符号和箭头
- 2C00 2C5F 格拉哥里字母 格拉哥里字母
- 2C60 2C7F 拉丁文扩展-C 拉丁文扩展-C
- 2C80 2CFF 古埃及语 古埃及语
- 2D00 2D2F 格鲁吉亚语补充 格鲁吉亚语补充
- 2D30 2D7F 提非纳文 提非纳文
- 2D80 2DDF 埃塞俄比亚语扩展 埃塞俄比亚语扩展
- 2E00 2E7F 追加标点 追加标点
- 2E80 2EFF CJK 部首补充 CJK 部首补充
- 2F00 2FDF 康熙字典部首 康熙字典部首
- 2FF0 2FFF 表意文字描述符 表意文字描述符
- 3000 303F CJK 符号和标点 CJK 符号和标点
- 3040 309F 日文平假名 日文平假名
- 30A0 30FF 日文片假名 日文片假名
- 3100 312F 注音字母 注音字母
- 3130 318F 朝鲜文兼容字母 朝鲜文兼容字母
- 3190 319F 象形字注释标志 象形字注释标志
- 31A0 31BF 注音字母扩展 注音字母扩展
- 31C0 31EF CJK 笔画 CJK 笔画
- 31F0 31FF 日文片假名语音扩展 日文片假名语音扩展
- 3200 32FF 封闭式 CJK 文字和月份 封闭式 CJK 文字和月份
- 3300 33FF CJK 兼容 CJK 兼容
- 3400 4DBF CJK 统一表意符号扩展 A CJK 统一表意符号扩展 A
- 4DC0 4DFF 易经六十四卦符号 易经六十四卦符号
- 4E00 9FBF CJK 统一表意符号 CJK 统一表意符号
- A000 A48F 彝文音节 彝文音节
- A490 A4CF 彝文字根 彝文字根
- A500 A61F Vai Vai
- A660 A6FF 统一加拿大土著语音节补充 统一加拿大土著语音节补充
- A700 A71F 声调修饰字母 声调修饰字母
- A720 A7FF 拉丁文扩展-D 拉丁文扩展-D
- A800 A82F Syloti Nagri Syloti Nagri
- A840 A87F 八思巴字 八思巴字
- A880 A8DF Saurashtra Saurashtra
- A900 A97F 爪哇语 爪哇语
- A980 A9DF Chakma Chakma
- AA00 AA3F Varang Kshiti Varang Kshiti
- AA40 AA6F Sorang Sompeng Sorang Sompeng
- AA80 AADF Newari Newari
- AB00 AB5F 越南傣语 越南傣语
- AB80 ABA0 Kayah Li Kayah Li
- AC00 D7AF 朝鲜文音节 朝鲜文音节
- D800 DBFF 高半区 UTF-16 高半区 UTF-16
- DC00 DFFF 低半区 UTF-16 低半区 UTF-16
- E000 F8FF 自定义区域 自定义区域
- F900 FAFF CJK 兼容象形文字 CJK 兼容象形文字
- FB00 FB4F 字母表达形式 字母表达形式
- FB50 FDFF 阿拉伯表达形式A 阿拉伯表达形式A
- FE00 FE0F 变量选择符 变量选择符
- FE10 FE1F 竖排形式 竖排形式
- FE20 FE2F 组合用半符号 组合用半符号
- FE30 FE4F CJK 兼容形式 CJK 兼容形式
- FE50 FE6F 小型变体形式 小型变体形式
- FE70 FEFF 阿拉伯表达形式B 阿拉伯表达形式B
- FF00 FFEF 半角及全角形式 半角及全角形式
- FFF0 FFFF 特殊 特殊