1 个不稳定版本
0.1.5 | 2022年6月30日 |
---|
#2085 在 Rust 模式
在 5 个crate中使用
10KB
216 行
编码
Rust 的字符编码支持。它基于 WHATWG 编码标准,并提供用于错误检测和恢复的高级接口。
用法
将以下内容放入你的 Cargo.toml
[dependencies]
encoding-next = "0.3"
数据表
默认情况下,Encoding 内置约 480 KB 的数据表("索引")。这使得 Encoding 能够高效地编码和解析旧编码,但对于某些应用程序来说可能不希望这样做。
Encoding 提供了 no-optimized-legacy-encoding
Cargo 功能,以降低编码表的大小(至约 185 KB),但以编码性能为代价(通常慢 5 倍至 20 倍)。解码性能保持不变。此功能强烈建议用于最终用户。请勿尝试从库 crate 中启用此功能。
有关更精细的优化,请参阅 src/index/gen_index.py
以生成自定义表。
概述
编码字符串
use encoding::{Encoding, EncoderTrap};
use encoding::all::ISO_8859_1;
assert_eq!(ISO_8859_1.encode("caf\u{e9}", EncoderTrap::Strict),
Ok(vec![99,97,102,233]));
编码包含不可表示字符的字符串
use encoding::{Encoding, EncoderTrap};
use encoding::all::ISO_8859_2;
assert!(ISO_8859_2.encode("Acme\u{a9}", EncoderTrap::Strict).is_err());
assert_eq!(ISO_8859_2.encode("Acme\u{a9}", EncoderTrap::Replace),
Ok(vec![65,99,109,101,63]));
assert_eq!(ISO_8859_2.encode("Acme\u{a9}", EncoderTrap::Ignore),
Ok(vec![65,99,109,101]));
assert_eq!(ISO_8859_2.encode("Acme\u{a9}", EncoderTrap::NcrEscape),
Ok(vec![65,99,109,101,38,35,49,54,57,59]));
解码字节序列
use encoding::{Encoding, DecoderTrap};
use encoding::all::ISO_8859_1;
assert_eq!(ISO_8859_1.decode(&[99,97,102,233], DecoderTrap::Strict),
Ok("caf\u{e9}".to_string()));
解码包含无效序列的字节序列
use encoding::{Encoding, DecoderTrap};
use encoding::all::ISO_8859_6;
assert!(ISO_8859_6.decode(&[65,99,109,101,169], DecoderTrap::Strict).is_err());
assert_eq!(ISO_8859_6.decode(&[65,99,109,101,169], DecoderTrap::Replace),
Ok("Acme\u{fffd}".to_string()));
assert_eq!(ISO_8859_6.decode(&[65,99,109,101,169], DecoderTrap::Ignore),
Ok("Acme".to_string()));
将输入编码或解码到已分配的缓冲区
use encoding::{Encoding, EncoderTrap, DecoderTrap};
use encoding::all::{ISO_8859_2, ISO_8859_6};
let mut bytes = Vec::new();
let mut chars = String::new();
assert!(ISO_8859_2.encode_to("Acme\u{a9}", EncoderTrap::Ignore, &mut bytes).is_ok());
assert!(ISO_8859_6.decode_to(&[65,99,109,101,169], DecoderTrap::Replace, &mut chars).is_ok());
assert_eq!(bytes, [65,99,109,101]);
assert_eq!(chars, "Acme\u{fffd}");
自定义编码陷阱的实用示例
use encoding::{Encoding, ByteWriter, EncoderTrap, DecoderTrap};
use encoding::types::RawEncoder;
use encoding::all::ASCII;
// hexadecimal numeric character reference replacement
fn hex_ncr_escape(_encoder: &mut dyn RawEncoder, input: &str, output: &mut dyn ByteWriter) -> bool {
let escapes: Vec<String> =
input.chars().map(|ch| format!("&#x{:x};", ch as isize)).collect();
let escapes = escapes.concat();
output.write_bytes(escapes.as_bytes());
true
}
static HEX_NCR_ESCAPE: EncoderTrap = EncoderTrap::Call(hex_ncr_escape);
let orig = "Hello, 世界!".to_string();
let encoded = ASCII.encode(&orig, HEX_NCR_ESCAPE).unwrap();
assert_eq!(ASCII.decode(&encoded, DecoderTrap::Strict),
Ok("Hello, 世界!".to_string()));
从字符串标签获取编码,如 WHATWG 编码标准所指定
use encoding::{Encoding, DecoderTrap};
use encoding::label::encoding_from_whatwg_label;
use encoding::all::WINDOWS_949;
let euckr = encoding_from_whatwg_label("euc-kr").unwrap();
assert_eq!(euckr.name(), "windows-949");
assert_eq!(euckr.whatwg_name(), Some("euc-kr")); // for the sake of compatibility
let broken = &[0xbf, 0xec, 0xbf, 0xcd, 0xff, 0xbe, 0xd3];
assert_eq!(euckr.decode(broken, DecoderTrap::Replace),
Ok("\u{c6b0}\u{c640}\u{fffd}\u{c559}".to_string()));
// corresponding Encoding native API:
assert_eq!(WINDOWS_949.decode(broken, DecoderTrap::Replace),
Ok("\u{c6b0}\u{c640}\u{fffd}\u{c559}".to_string()));
类型和其他内容
Encoding 有三个主要的入口点。
编码
是一种单字符编码。它包含用于将String
转换为Vec<u8>
以及相反操作的encode
和decode
方法。对于错误处理,它们接收EncoderTrap
和DecoderTrap
,分别用于处理编码和解码中的错误,将错误替换为一些字符串(例如U+FFFD
)或序列(例如?
)。您还可以使用EncoderTrap::Strict
和DecoderTrap::Strict
陷阱来在错误发生时停止。
获取编码
有两种方式
encoding::all
为每种支持的编码提供了静态项。当编码不会改变或只需要少数几种时,应使用它们。结合链接时间优化,任何未使用的编码都会从二进制文件中删除。encoding::label
提供了从给定字符串(“标签”)动态获取编码的功能。它们将返回对编码的静态引用,其类型也称为EncodingRef
。当提前无法获取所需编码列表时,这非常有用,但它会导致二进制文件更大,并且错过了优化机会。
RawEncoder
是一个实验性的增量编码器。在raw_feed
的每个步骤中,它接收字符串的切片,并将任何编码的字节输出到一个通用的ByteWriter
(通常是Vec<u8>
)。如果出现任何错误,它将在第一个错误处停止,并返回一个CodecError
结构体。调用者负责在编码过程结束时调用raw_finish
。
RawDecoder
是一个实验性的增量解码器。在raw_feed
的每个步骤中,它接收字节序列的切片,并将任何解码的字符输出到一个通用的StringWriter
(通常是String
)。否则它与RawEncoder
相同。
应首选将Encoding::{encode,decode}
作为主接口。RawEncoder
和RawDecoder
是实验性的,可能会发生重大变化。有关更多信息,请参阅encoding::types
模块的附加文档。
支持的编码
编码涵盖了WHATWG编码标准中指定的所有编码以及一些额外的编码
- 7位严格ASCII(
ascii
) - ArmSCII-8(
armscii-8
) - UTF-8(
utf-8
) - 小端UTF-16(
utf-16
或utf-16le
)和大端UTF-16(utf-16be
) - WHATWG编码标准中的所有单字节编码
- IBM代码页866
- ISO 8859-{2,3,4,5,6,7,8,10,13,14,15,16}
- KOI8-R, KOI8-U
- MacRoman(
macintosh
),Macintosh西里尔文编码(x-mac-cyrillic
) - Windows代码页874、1250、1251、1252(代替ISO 8859-1)、1253、1254(代替ISO 8859-9)、1255、1256、1257、1258
- WHATWG编码标准中的所有多字节编码
- Windows代码页949(《euc-kr》,因为严格的EUC-KR几乎不被使用)
- EUC-JP和Windows代码页932(《shift_jis》,因为它是最广泛的Shift_JIS扩展)
- ISO-2022-JP具有非对称的JIS X 0212支持(注意:这尚未达到当前标准)
- GBK
- GB 18030
- Big5-2003与HKSCS-2008扩展
- 最初由WHATWG编码标准指定的编码
- HZ
- ISO 8859-1(与Windows代码页1252不同)
- 代码页437(《cp437》)
括号内的名称指的是由WHATWG编码标准指定的编码的主要名称。
许多旧的字符编码缺乏适当的规范,甚至那些有规范的都是高度依赖于实际实现的。因此,在挑选所需的字符编码时应谨慎。在这方面唯一可靠的规范是WHATWG编码标准和Unicode联盟提供的供应商映射。如有疑问,请查看源代码和规范以获取详细说明。
lib.rs
:
用于测试索引的宏和实用工具。