1个稳定版本

1.20180106.0	2022年6月30日

#1207 在文本处理

每月下载量162
在 encoding-next 中使用

CC0 许可证

345KB
3.5K SLoC

编码

Rust的字符编码支持。它基于WHATWG编码标准，并提供用于错误检测和恢复的高级接口。

用法

将此放入您的 Cargo.toml

[dependencies]
encoding-next = "0.3"

数据表

默认情况下，Encoding附带约480 KB的数据表（"索引"）。这使得Encoding能够高效地编码和解码旧版编码，但这可能不适合某些应用程序。

Encoding提供no-optimized-legacy-encoding Cargo功能，以减少编码表的大小（到约185 KB），但代价是编码性能（通常慢5倍到20倍）。解码性能保持不变。此功能强烈推荐给最终用户。请勿从库crates中尝试启用此功能。

对于更精细的优化，请参阅src/index/gen_index.py以进行自定义表生成。

概述

编码字符串

use encoding::{Encoding, EncoderTrap};
use encoding::all::ISO_8859_1;

assert_eq!(ISO_8859_1.encode("caf\u{e9}", EncoderTrap::Strict),
           Ok(vec![99,97,102,233]));

编码包含不可表示字符的字符串

use encoding::{Encoding, EncoderTrap};
use encoding::all::ISO_8859_2;

assert!(ISO_8859_2.encode("Acme\u{a9}", EncoderTrap::Strict).is_err());
assert_eq!(ISO_8859_2.encode("Acme\u{a9}", EncoderTrap::Replace),
           Ok(vec![65,99,109,101,63]));
assert_eq!(ISO_8859_2.encode("Acme\u{a9}", EncoderTrap::Ignore),
           Ok(vec![65,99,109,101]));
assert_eq!(ISO_8859_2.encode("Acme\u{a9}", EncoderTrap::NcrEscape),
           Ok(vec![65,99,109,101,38,35,49,54,57,59]));

解码字节序列

use encoding::{Encoding, DecoderTrap};
use encoding::all::ISO_8859_1;

assert_eq!(ISO_8859_1.decode(&[99,97,102,233], DecoderTrap::Strict),
           Ok("caf\u{e9}".to_string()));

解码包含无效序列的字节序列

use encoding::{Encoding, DecoderTrap};
use encoding::all::ISO_8859_6;

assert!(ISO_8859_6.decode(&[65,99,109,101,169], DecoderTrap::Strict).is_err());
assert_eq!(ISO_8859_6.decode(&[65,99,109,101,169], DecoderTrap::Replace),
           Ok("Acme\u{fffd}".to_string()));
assert_eq!(ISO_8859_6.decode(&[65,99,109,101,169], DecoderTrap::Ignore),
           Ok("Acme".to_string()));

将输入编码或解码到已分配的缓冲区

use encoding::{Encoding, EncoderTrap, DecoderTrap};
use encoding::all::{ISO_8859_2, ISO_8859_6};

let mut bytes = Vec::new();
let mut chars = String::new();

assert!(ISO_8859_2.encode_to("Acme\u{a9}", EncoderTrap::Ignore, &mut bytes).is_ok());
assert!(ISO_8859_6.decode_to(&[65,99,109,101,169], DecoderTrap::Replace, &mut chars).is_ok());

assert_eq!(bytes, [65,99,109,101]);
assert_eq!(chars, "Acme\u{fffd}");

自定义编码器陷阱的实际示例

use encoding::{Encoding, ByteWriter, EncoderTrap, DecoderTrap};
use encoding::types::RawEncoder;
use encoding::all::ASCII;

// hexadecimal numeric character reference replacement
fn hex_ncr_escape(_encoder: &mut dyn RawEncoder, input: &str, output: &mut dyn ByteWriter) -> bool {
    let escapes: Vec<String> =
        input.chars().map(|ch| format!("&#x{:x};", ch as isize)).collect();
    let escapes = escapes.concat();
    output.write_bytes(escapes.as_bytes());
    true
}
static HEX_NCR_ESCAPE: EncoderTrap = EncoderTrap::Call(hex_ncr_escape);

let orig = "Hello, 世界!".to_string();
let encoded = ASCII.encode(&orig, HEX_NCR_ESCAPE).unwrap();
assert_eq!(ASCII.decode(&encoded, DecoderTrap::Strict),
           Ok("Hello, &#x4e16;&#x754c;!".to_string()));

从字符串标签获取编码，如WHATWG编码标准所指定

use encoding::{Encoding, DecoderTrap};
use encoding::label::encoding_from_whatwg_label;
use encoding::all::WINDOWS_949;

let euckr = encoding_from_whatwg_label("euc-kr").unwrap();
assert_eq!(euckr.name(), "windows-949");
assert_eq!(euckr.whatwg_name(), Some("euc-kr")); // for the sake of compatibility
let broken = &[0xbf, 0xec, 0xbf, 0xcd, 0xff, 0xbe, 0xd3];
assert_eq!(euckr.decode(broken, DecoderTrap::Replace),
           Ok("\u{c6b0}\u{c640}\u{fffd}\u{c559}".to_string()));

// corresponding Encoding native API:
assert_eq!(WINDOWS_949.decode(broken, DecoderTrap::Replace),
           Ok("\u{c6b0}\u{c640}\u{fffd}\u{c559}".to_string()));

类型和内容

Encoding有三个主要入口点。

编码是一种单字符编码。它包含encode和decode方法，用于将String转换为Vec<u8>及其反向转换。对于错误处理，它们接收EncoderTrap和DecoderTrap（分别），它们将任何错误替换为一些字符串（例如U+FFFD）或序列（例如?）。您还可以使用EncoderTrap::Strict和DecoderTrap::Strict陷阱在错误时停止。

获取编码有两种方式 encoding::all为每个支持的编码提供了静态项。在编码不会改变或只需要少量编码时，应使用它们。结合链接时优化，任何未使用的编码都将从二进制文件中删除。 encoding::label提供了从给定字符串（“标签”）动态获取编码的功能。它们将返回编码的静态引用，其类型也称为EncodingRef。当事先无法获得所需编码列表时，它非常有用，但它会导致二进制文件更大，并且错失优化机会。 RawEncoder是一个实验性的增量编码器。在raw_feed的每个步骤中，它接收字符串的一个片段，并将任何编码的字节输出到通用的ByteWriter（通常是Vec<u8>）。如果出现任何错误，它将停止，并返回一个CodecError结构。调用者负责在编码过程结束时调用raw_finish。 RawDecoder是一个实验性的增量解码器。在raw_feed的每个步骤中，它接收字节序列的一个片段，并将任何解码的字符输出到通用的StringWriter（通常是String）。否则它与RawEncoder相同。应首选将Encoding::{encode,decode}作为主要接口。《RawEncoder》和《RawDecoder》是实验性的，并且可能会发生重大变化。有关更多信息，请参阅《encoding::types》模块的附加文档。支持的编码编码涵盖了WHATWG编码标准指定的所有编码以及一些其他编码 7位严格ASCII（ascii） ArmSCII-8（armscii-8） UTF-8（utf-8）小端UTF-16（utf-16或utf-16le）和大端UTF-16（utf-16be） WHATWG编码标准中的所有单字节编码 IBM代码页866 ISO 8859-{2,3,4,5,6,7,8,10,13,14,15,16} KOI8-R, KOI8-U MacRoman（macintosh），Macintosh西里尔编码（x-mac-cyrillic） Windows代码页874, 1250, 1251, 1252（代替ISO 8859-1），1253, 1254（代替ISO 8859-9），1255, 1256, 1257, 1258 WHATWG 编码标准中的所有多字节编码 Windows代码页949（euc-kr，因为严格的EUC-KR很少使用） EUC-JP和Windows代码页932（shift_jis，因为它是Shift_JIS最广泛的应用扩展） ISO-2022-JP，具有非对称的JIS X 0212支持（注意：这尚未更新到当前标准） GBK GB 18030 Big5-2003，带有HKSCS-2008扩展最初由WHATWG编码标准指定的编码 HZ ISO 8859-1（与Windows代码页1252不同）代码页437（cp437）括号中的名称指的是由WHATWG编码标准分配的编码的主要名称。许多遗留字符编码缺乏适当的规范，即使那些有规范的存在也高度依赖于实际实现。因此，在选择所需的字符编码时应谨慎。在这方面唯一可靠的标准是WHATWG编码标准和Unicode联盟提供的供应商映射。如有疑问，请查看源代码和规范以获得详细说明。

lib.rs: 为encoding-next提供的韩国索引表。

无运行时依赖 dev encoding-next_index_tests 其他功能 no-optimized-legacy-encoding

encoding-next-index-korean

1个稳定版本

编码

用法

数据表

概述

类型和内容

支持的编码

`lib.rs`:

无运行时依赖