#转写 #pandoc #过滤器 #文本

bin+lib translitrs

塞尔维亚语转写工具

3 个版本

0.2.2 2023年2月19日
0.2.1 2023年1月15日
0.2.0 2021年12月15日

#730 in 文本处理

MIT 许可证

58KB
1.5K SLoC

Crates.io Build status License

translitRS — 塞尔维亚语转写器

TranslitRS 是一个用于在塞尔维亚语的西里尔文和拉丁文书写系统之间进行转写的命令行工具。它可以直接在纯文本文件上工作,也可以作为 Pandoc 文档处理器(MarkdownHTMLLaTeXMicrosoft Word 等)的过滤器。

用法

参数

  • -i, --输入<路径>
    从文件中读取输入
    默认值: 标准输入
  • -o, --输出<路径>
    将输出写入文件
    默认值: 标准输出
  • -f, --<字符集>
    字符集 转换
    默认值: latin
  • -t, --<字符集>
    转换为 字符集
    默认值: cyrillic
  • -d, --跳过-双字母
    不检查双字母异常
  • -u, --强制-外国
    处理包含外国和混合字符的单词
  • -l, --强制-链接
    处理超链接、电子邮件地址和单位
  • -p, --pandoc-过滤器
    以 Pandoc JSON 管道 过滤器模式 运行
  • -v, --版本
    显示版本并退出
  • -h, --帮助
    显示用法帮助并退出

字符集

以下列出的是可用的字符集及其缩写代码

  • 塞尔维亚拉丁语
    latin,lat,l
  • 塞尔维亚拉丁语(Unicode)
    latin8,lat8,l8
  • 塞尔维亚西里尔语
    cyrillic,cyr,c

Pandoc 过滤器模式

当作为 Pandoc 过滤器运行时,无法直接传递上述参数。相反,请使用以下参数变量

  • CHARS_FROM=<字符集>
    从字符集转换
  • CHARS_INTO=<字符集>
    转换为字符集
  • SKIP_DIGRAPH=1
    不检查双字母异常
  • FORCE_FOREIGN=1
    处理包含外国和混合字符的单词
  • FORCE_LINKS=1
    处理超链接、电子邮件地址和单位

示例

# Transliterate plaintext file from Latin (Unicode) to Cyrillic
translitrs -f lat8 -t cyr -i source.txt -o destination.txt

# Transliterate Microsoft Word document from Cyrillic to Latin
CHARS_FROM=c CHARS_INTO=l pandoc essay.docx --filter translitrs -o essay.docx

依赖关系

~2.3–3.5MB
~63K SLoC