#字符编码 #索引 # #ISO #恢复 #单字节

encoding-next-index-singlebyte

各种单字节字符编码的索引表

1个稳定版本

1.20180106.0 2022年6月30日

#12 in #恢复

Download history 19/week @ 2024-03-11 18/week @ 2024-03-18 25/week @ 2024-03-25 58/week @ 2024-04-01 88/week @ 2024-04-08 68/week @ 2024-04-15 61/week @ 2024-04-22 27/week @ 2024-04-29 157/week @ 2024-05-06 86/week @ 2024-05-13 45/week @ 2024-05-20 117/week @ 2024-05-27 84/week @ 2024-06-03 63/week @ 2024-06-10 36/week @ 2024-06-17 32/week @ 2024-06-24

219 每月下载量
encoding-next 中使用

CC0 许可证

135KB
2K SLoC

编码

Crates.io Crates.io Crates.io Docs.io Docs master Rust codecov

Rust的字符编码支持。它基于WHATWG 编码标准,并提供错误检测和恢复的高级接口。

用法

将以下内容放入您的 Cargo.toml

[dependencies]
encoding-next = "0.3"

数据表

默认情况下,Encoding自带约480 KB的数据表("索引")。这允许Encoding有效地编码和解码旧版编码,但这对某些应用程序可能不适用。

Encoding提供了no-optimized-legacy-encoding Cargo功能,以减少编码表的大小(约185 KB),但会牺牲编码性能(通常慢5倍到20倍)。解码性能保持不变。此功能强烈建议用于最终用户。请不要尝试从库crates启用此功能。

对于更精细的优化,请参阅src/index/gen_index.py以生成自定义表。

概述

编码字符串

use encoding::{Encoding, EncoderTrap};
use encoding::all::ISO_8859_1;

assert_eq!(ISO_8859_1.encode("caf\u{e9}", EncoderTrap::Strict),
           Ok(vec![99,97,102,233]));

编码包含无法表示的字符的字符串

use encoding::{Encoding, EncoderTrap};
use encoding::all::ISO_8859_2;

assert!(ISO_8859_2.encode("Acme\u{a9}", EncoderTrap::Strict).is_err());
assert_eq!(ISO_8859_2.encode("Acme\u{a9}", EncoderTrap::Replace),
           Ok(vec![65,99,109,101,63]));
assert_eq!(ISO_8859_2.encode("Acme\u{a9}", EncoderTrap::Ignore),
           Ok(vec![65,99,109,101]));
assert_eq!(ISO_8859_2.encode("Acme\u{a9}", EncoderTrap::NcrEscape),
           Ok(vec![65,99,109,101,38,35,49,54,57,59]));

解码字节序列

use encoding::{Encoding, DecoderTrap};
use encoding::all::ISO_8859_1;

assert_eq!(ISO_8859_1.decode(&[99,97,102,233], DecoderTrap::Strict),
           Ok("caf\u{e9}".to_string()));

解码包含无效序列的字节序列

use encoding::{Encoding, DecoderTrap};
use encoding::all::ISO_8859_6;

assert!(ISO_8859_6.decode(&[65,99,109,101,169], DecoderTrap::Strict).is_err());
assert_eq!(ISO_8859_6.decode(&[65,99,109,101,169], DecoderTrap::Replace),
           Ok("Acme\u{fffd}".to_string()));
assert_eq!(ISO_8859_6.decode(&[65,99,109,101,169], DecoderTrap::Ignore),
           Ok("Acme".to_string()));

将输入编码或解码到已分配的缓冲区中

use encoding::{Encoding, EncoderTrap, DecoderTrap};
use encoding::all::{ISO_8859_2, ISO_8859_6};

let mut bytes = Vec::new();
let mut chars = String::new();

assert!(ISO_8859_2.encode_to("Acme\u{a9}", EncoderTrap::Ignore, &mut bytes).is_ok());
assert!(ISO_8859_6.decode_to(&[65,99,109,101,169], DecoderTrap::Replace, &mut chars).is_ok());

assert_eq!(bytes, [65,99,109,101]);
assert_eq!(chars, "Acme\u{fffd}");

自定义编码器陷阱的实际示例

use encoding::{Encoding, ByteWriter, EncoderTrap, DecoderTrap};
use encoding::types::RawEncoder;
use encoding::all::ASCII;

// hexadecimal numeric character reference replacement
fn hex_ncr_escape(_encoder: &mut dyn RawEncoder, input: &str, output: &mut dyn ByteWriter) -> bool {
    let escapes: Vec<String> =
        input.chars().map(|ch| format!("&#x{:x};", ch as isize)).collect();
    let escapes = escapes.concat();
    output.write_bytes(escapes.as_bytes());
    true
}
static HEX_NCR_ESCAPE: EncoderTrap = EncoderTrap::Call(hex_ncr_escape);

let orig = "Hello, 世界!".to_string();
let encoded = ASCII.encode(&orig, HEX_NCR_ESCAPE).unwrap();
assert_eq!(ASCII.decode(&encoded, DecoderTrap::Strict),
           Ok("Hello, &#x4e16;&#x754c;!".to_string()));

根据WHATWG编码标准从字符串标签获取编码

use encoding::{Encoding, DecoderTrap};
use encoding::label::encoding_from_whatwg_label;
use encoding::all::WINDOWS_949;

let euckr = encoding_from_whatwg_label("euc-kr").unwrap();
assert_eq!(euckr.name(), "windows-949");
assert_eq!(euckr.whatwg_name(), Some("euc-kr")); // for the sake of compatibility
let broken = &[0xbf, 0xec, 0xbf, 0xcd, 0xff, 0xbe, 0xd3];
assert_eq!(euckr.decode(broken, DecoderTrap::Replace),
           Ok("\u{c6b0}\u{c640}\u{fffd}\u{c559}".to_string()));

// corresponding Encoding native API:
assert_eq!(WINDOWS_949.decode(broken, DecoderTrap::Replace),
           Ok("\u{c6b0}\u{c640}\u{fffd}\u{c559}".to_string()));

类型和内容

Encoding有三个主要入口点。

Encoding 是一个单字符编码。它包含用于将 String 转换为 Vec<u8> 和反之亦然的 encodedecode 方法。对于错误处理,它们接收 陷阱 (分别对应 EncoderTrapDecoderTrap) ,用一些字符串(例如 U+FFFD)或序列(例如 ?)替换任何错误。您还可以使用 EncoderTrap::StrictDecoderTrap::Strict 陷阱来在错误时停止。

获取 Encoding 的两种方法

  • encoding::all 为每个支持的编码提供静态项。当编码不会改变或只需要其中几个时,应使用它们。结合链接时间优化,任何未使用的编码都会从二进制文件中删除。
  • encoding::label 提供了动态从给定字符串("label")中获取编码的功能。它们将返回一个静态引用到编码,该引用类型也称为 EncodingRef。当预先生成的编码列表不可用时,这很有用,但它会导致二进制文件更大,并错过优化的机会。

RawEncoder 是一个实验性的增量编码器。在 raw_feed 的每个步骤中,它接收一个字符串切片,并将任何编码的字节发送到通用的 ByteWriter(通常为 Vec<u8>)。如果在任何地方发生错误,它将停止,并返回一个包含 CodecError 结构体的结果。调用者负责在编码过程结束时调用 raw_finish

RawDecoder 是一个实验性的增量解码器。在 raw_feed 的每个步骤中,它接收一个字节数据切片,并将任何解码的字符发送到通用的 StringWriter(通常为 String)。它与其他 RawEncoder 相同。

应首选 Encoding::{encode,decode} 作为主要接口。 RawEncoderRawDecoder 是实验性的,并且可能发生重大变化。有关更多信息,请参阅 encoding::types 模块的附加文档。

支持的编码

编码涵盖了 WHATWG 编码标准中指定的所有编码以及更多

  • 7位严格ASCII(ascii
  • ArmSCII-8(armscii-8
  • UTF-8(utf-8
  • 小端 UTF-16(utf-16utf-16le)和大端 UTF-16(utf-16be
  • WHATWG 编码标准中的所有单字节编码
    • IBM代码页 866
    • ISO 8859-{2,3,4,5,6,7,8,10,13,14,15,16}
    • KOI8-R, KOI8-U
    • MacRoman(macintosh),Macintosh 西里尔文编码(x-mac-cyrillic
    • Windows代码页 874, 1250, 1251, 1252(代替 ISO 8859-1),1253, 1254(代替 ISO 8859-9),1255, 1256, 1257, 1258
  • WHATWG 编码标准中的所有多字节编码
    • Windows代码页 949(euc-kr,因为严格的 EUC-KR 很少使用)
    • EUC-JP 和 Windows代码页 932(shift_jis,因为它是 Shift_JIS 最广泛使用的扩展)
    • ISO-2022-JP 具有不对称 JIS X 0212 支持(注意:这尚未达到当前标准)
    • GBK
    • GB 18030
    • Big5-2003 带有 HKSCS-2008 扩展
  • 最初由 WHATWG 编码标准指定的编码
    • HZ
  • ISO 8859-1(与 Windows 代码页 1252 区别开来)
  • 代码页 437(cp437

括号内的名称是指由 WHATWG 编码标准分配的编码的主要名称。

许多遗留字符编码缺乏适当的规范,甚至那些有规范的都是高度依赖于实际实现的。因此,在选择所需的字符编码时应谨慎。在这方面唯一可靠的规范是 WHATWG 编码标准和 Unicode 联盟提供的供应商映射。如果有疑问,请查看源代码和规范以获得详细说明。


lib.rs:

encoding-nextencoding 的单字节索引表。

无运行时依赖