#pi #unicode #cjk #alphabetic #symbols #forms #unicode字符函数,获取字符的语言区间段;及根据文字排版需要,判断字符是否为单字字符或字母字符

pi_ucd

unicode字符函数,获取字符的语言区间段。及根据文字排版需要,判断字符是否为单字字符或字母字符

1个不稳定版本

0.1.0 2022年3月6日

#914 in 文本处理

MIT/Apache

25KB
112

pi_ucd

概述

unicode字符函数,获取字符的语言区间段。及根据文字排版需要,判断字符是否为单字字符或字母字符

参考: http://www.cnblogs.com/chenwenbiao/archive/2011/08/17/2142718.html

以下是unicode中常见语言的区间段

  • 0000 007F C0控制符及基本拉丁文 C0 控制符和基本拉丁文
  • 0080 00FF C1控制符及拉丁文补充-1 C1 控制符和拉丁文补充-1
  • 0100 017F 拉丁文扩展-A 拉丁文扩展-A
  • 0180 024F 拉丁文扩展-B 拉丁文扩展-B
  • 0250 02AF 国际音标扩展 IPA 扩展
  • 02B0 02FF 空白修饰字母 空白修饰字母
  • 0300 036F 结合用读音符号 结合用读音符号
  • 0370 03FF 希腊文及科普特文 希腊文和科普特文
  • 0400 04FF 西里尔字母 西里尔字母
  • 0500 052F 西里尔字母补充 西里尔字母补充
  • 0530 058F 亚美尼亚语 亚美尼亚语
  • 0590 05FF 希伯来文 希伯来文
  • 0600 06FF 阿拉伯文 阿拉伯文
  • 0700 074F 叙利亚文 叙利亚文
  • 0750 077F 阿拉伯文补充 阿拉伯文补充
  • 0780 07BF 马尔代夫语 马尔代夫语
  • 07C0 07FF 西非书面语言 N'Ko 西非书面语言 N'Ko
  • 0800 085F 阿维斯塔语及巴列维语 阿维斯塔语和巴列维语
  • 0860 087F 美达尼克语 美达尼克语
  • 0880 08AF 撒马利亚语 撒马利亚语
  • 0900 097F 天城文书 天城文书
  • 0980 09FF 孟加拉语 孟加拉语
  • 0A00 0A7F 锡克教文 锡克教文
  • 0A80 0AFF 古吉拉特文 古吉拉特文
  • 0B00 0B7F 奥里亚文 奥里亚文
  • 0B80 0BFF 泰米尔文 泰米尔文
  • 0C00 0C7F 泰卢固文 泰卢固文
  • 0C80 0CFF 卡纳达文 卡纳达文
  • 0D00 0D7F 德拉维族语 德拉维族语
  • 0D80 0DFF 僧伽罗语 僧伽罗语
  • 0E00 0E7F 泰文 泰文
  • 0E80 0EFF 老挝文 老挝文
  • 0F00 0FFF 藏文 藏文
  • 1000 109F 缅甸语 缅甸语
  • 10A0 10FF 格鲁吉亚语 格鲁吉亚语
  • 1100 11FF 朝鲜文 朝鲜文
  • 1200 137F 埃塞俄比亚语 埃塞俄比亚语
  • 1380 139F 埃塞俄比亚语补充 埃塞俄比亚语补充
  • 13A0 13FF 切罗基语 切罗基语
  • 1400 167F 统一加拿大土著语音节 统一加拿大土著语音节
  • 1680 169F 欧甘字母 欧甘字母
  • 16A0 16FF 如尼文 如尼文
  • 1700 171F 塔加拉语 塔加拉语
  • 1720 173F Hanunóo Hanunóo
  • 1740 175F Buhid Buhid
  • 1760 177F Tagbanwa Tagbanwa
  • 1780 17FF 高棉语 高棉语
  • 1800 18AF 蒙古文 蒙古文
  • 18B0 18FF Cham Cham
  • 1900 194F Limbu Limbu
  • 1950 197F 德宏泰语 Tai Le
  • 1980 19DF 新傣仂语 New Tai Lue
  • 19E0 19FF 高棉语记号 Kmer Symbols 高棉语记号
  • 1A00 1A1F Buginese Buginese
  • 1A20 1A5F Batak Batak
  • 1A80 1AEF Lanna Lanna
  • 1B00 1B7F 巴厘语 巴厘语
  • 1B80 1BB0 巽他语 Sundanese
  • 1BC0 1BFF Pahawh Hmong Pahawh Hmong
  • 1C00 1C4F 雷布查语 Lepcha
  • 1C50 1C7F Ol Chiki Ol Chiki
  • 1C80 1CDF 曼尼普尔语 Meithei/Manipuri
  • 1D00 1D7F 语音学扩展 语音学扩展
  • 1D80 1DBF 语音学扩展补充 语音扩展补充
  • 1DC0 1DFF 结合用读音符号补充 结合用读音符号
  • 1E00 1EFF 拉丁文扩充附加 拉丁文扩充
  • 1F00 1FFF 希腊语扩充 希腊语扩充
  • 2000 206F 常用标点 常用标点
  • 2070 209F 上标及下标 上标及下标
  • 20A0 20CF 货币符号 货币符号
  • 20D0 20FF 组合用记号 组合用记号
  • 2100 214F 字母式符号 字母式符号
  • 2150 218F 数字形式 数字形式
  • 2190 21FF 箭头 箭头
  • 2200 22FF 数学运算符 数学运算符
  • 2300 23FF 杂项工业符号 杂项工业符号
  • 2400 243F 控制图片 控制图片
  • 2440 245F 光学识别符 光学识别符
  • 2460 24FF 封闭式字母数字 封闭式字母数字
  • 2500 257F 制表符 制表符
  • 2580 259F 方块元素 方块元素
  • 25A0 25FF 几何图形 几何图形
  • 2600 26FF 杂项符号 杂项符号
  • 2700 27BF 印刷符号 印刷符号
  • 27C0 27EF 杂项数学符号-A 杂项数学符号-A
  • 27F0 27FF 追加箭头-A 追加箭头-A
  • 2800 28FF 盲文点字模型 盲文点字模型
  • 2900 297F 追加箭头-B 追加箭头-B
  • 2980 29FF 杂项数学符号-B 杂项数学符号-B
  • 2A00 2AFF 追加数学运算符 追加数学运算符
  • 2B00 2BFF 杂项符号和箭头 杂项符号和箭头
  • 2C00 2C5F 格拉哥里字母 格拉哥里字母
  • 2C60 2C7F 拉丁文扩展-C 拉丁文扩展-C
  • 2C80 2CFF 古埃及语 古埃及语
  • 2D00 2D2F 格鲁吉亚语补充 格鲁吉亚语补充
  • 2D30 2D7F 提非纳文 提非纳文
  • 2D80 2DDF 埃塞俄比亚语扩展 埃塞俄比亚语扩展
  • 2E00 2E7F 追加标点 追加标点
  • 2E80 2EFF CJK 部首补充 CJK 部首补充
  • 2F00 2FDF 康熙字典部首 康熙字典部首
  • 2FF0 2FFF 表意文字描述符 表意文字描述符
  • 3000 303F CJK 符号和标点 CJK 符号和标点
  • 3040 309F 日文平假名 日文平假名
  • 30A0 30FF 日文片假名 日文片假名
  • 3100 312F 注音字母 注音字母
  • 3130 318F 朝鲜文兼容字母 朝鲜文兼容字母
  • 3190 319F 象形字注释标志 象形字注释标志
  • 31A0 31BF 注音字母扩展 注音字母扩展
  • 31C0 31EF CJK 笔画 CJK 笔画
  • 31F0 31FF 日文片假名语音扩展 日文片假名语音扩展
  • 3200 32FF 封闭式 CJK 文字和月份 封闭式 CJK 文字和月份
  • 3300 33FF CJK 兼容 CJK 兼容
  • 3400 4DBF CJK 统一表意符号扩展 A CJK 统一表意符号扩展 A
  • 4DC0 4DFF 易经六十四卦符号 易经六十四卦符号
  • 4E00 9FBF CJK 统一表意符号 CJK 统一表意符号
  • A000 A48F 彝文音节 彝文音节
  • A490 A4CF 彝文字根 彝文字根
  • A500 A61F Vai Vai
  • A660 A6FF 统一加拿大土著语音节补充 统一加拿大土著语音节补充
  • A700 A71F 声调修饰字母 声调修饰字母
  • A720 A7FF 拉丁文扩展-D 拉丁文扩展-D
  • A800 A82F Syloti Nagri Syloti Nagri
  • A840 A87F 八思巴字 八思巴字
  • A880 A8DF Saurashtra Saurashtra
  • A900 A97F 爪哇语 爪哇语
  • A980 A9DF Chakma Chakma
  • AA00 AA3F Varang Kshiti Varang Kshiti
  • AA40 AA6F Sorang Sompeng Sorang Sompeng
  • AA80 AADF Newari Newari
  • AB00 AB5F 越南傣语 越南傣语
  • AB80 ABA0 Kayah Li Kayah Li
  • AC00 D7AF 朝鲜文音节 朝鲜文音节
  • D800 DBFF 高半区 UTF-16 高半区 UTF-16
  • DC00 DFFF 低半区 UTF-16 低半区 UTF-16
  • E000 F8FF 自定义区域 自定义区域
  • F900 FAFF CJK 兼容象形文字 CJK 兼容象形文字
  • FB00 FB4F 字母表达形式 字母表达形式
  • FB50 FDFF 阿拉伯表达形式A 阿拉伯表达形式A
  • FE00 FE0F 变量选择符 变量选择符
  • FE10 FE1F 竖排形式 竖排形式
  • FE20 FE2F 组合用半符号 组合用半符号
  • FE30 FE4F CJK 兼容形式 CJK 兼容形式
  • FE50 FE6F 小型变体形式 小型变体形式
  • FE70 FEFF 阿拉伯表达形式B 阿拉伯表达形式B
  • FF00 FFEF 半角及全角形式 半角及全角形式
  • FFF0 FFFF 特殊 特殊

无运行依赖 无运行依赖