1 个不稳定版本
0.1.0 | 2022 年 7 月 6 日 |
---|
在 视频 类别中排名第 277
72KB
1K SLoC
vobsubocr
vobsubocr
是一个快速且准确的 DVD VobSub 到 SRT 字幕转换工具。
背景
不幸的是,DVD 字幕基本上是以一系列图像的形式编码的。这在需要字幕的文本表示时(例如,用于语言学习)会带来问题。 vobsubocr
可以通过从输入 VobSub 文件生成 SRT 字幕来解决这个问题,利用了 Tesseract 的功能。
安装
此包尚未在 crates.io 上,因此您必须使用 cargo
进行克隆和构建。您需要安装 Tesseract 的开发库;有关更多详细信息,请参阅 leptess 读取说明。
使用方法
# Convert simplified Chinese vobsub subtitles and print them to stdout.
vobsubocr -l chi_sim shrek_chi.idx
# Convert English vobsub subtitles and write them to a file named "shrek_eng.srt".
vobsubocr -l eng -o shrek_eng.srt shrek_eng.idx
我们还可以使用 -c
为 Tesseract 指定更高级的配置选项。
# Convert subtitles and blacklist the specified characters from being (mistakenly) recognized.
vobsubocr -l eng -c tessedit_char_blacklist='|\/`_~' shrek_eng.idx
它是如何工作的/与类似工具相比如何?
与 vobsubocr
最相似的工具是 VobSub2SRT,但 vobsubocr
的输出质量显著更好,特别是对于非英语语言,主要是因为 VobSub2SRT
在将其发送到 Tesseract 之前几乎没有对图像进行预处理。例如,Tesseract 4.0 预期黑色文本在白色背景上,而 VobSub2SRT
不能保证这一点,但 vobsubocr
可以。此外,vobsubocr
将每一行拆分为单独的图像,以利用页面分割方法 7,这极大地提高了非英语语言的准确性。
有关如何提高 Tesseract 输出准确性的官方文档可以在此处查看:此处。
其他说明
据我所知,chi_sim
和 chi_tra
Tesseract 模型适用于简体和繁体中文文本,但会自动将文本转换为相应的形式。
依赖项
~35MB
~483K SLoC