#字幕 #OCR #DVD #VOBSub

应用程序 vobsubocr

使用 Tesseract OCR 将 DVD VOB 字幕转换为 SRT 字幕

1 个不稳定版本

0.1.0 2022 年 7 月 6 日

视频 类别中排名第 277

GPL-3.0 许可证

72KB
1K SLoC

vobsubocr

vobsubocr 是一个快速且准确的 DVD VobSub 到 SRT 字幕转换工具。

背景

不幸的是,DVD 字幕基本上是以一系列图像的形式编码的。这在需要字幕的文本表示时(例如,用于语言学习)会带来问题。 vobsubocr 可以通过从输入 VobSub 文件生成 SRT 字幕来解决这个问题,利用了 Tesseract 的功能。

安装

此包尚未在 crates.io 上,因此您必须使用 cargo 进行克隆和构建。您需要安装 Tesseract 的开发库;有关更多详细信息,请参阅 leptess 读取说明

使用方法

# Convert simplified Chinese vobsub subtitles and print them to stdout.
vobsubocr -l chi_sim shrek_chi.idx

# Convert English vobsub subtitles and write them to a file named "shrek_eng.srt".
vobsubocr -l eng -o shrek_eng.srt shrek_eng.idx

我们还可以使用 -c 为 Tesseract 指定更高级的配置选项。

# Convert subtitles and blacklist the specified characters from being (mistakenly) recognized.
vobsubocr -l eng -c tessedit_char_blacklist='|\/`_~' shrek_eng.idx

它是如何工作的/与类似工具相比如何?

vobsubocr 最相似的工具是 VobSub2SRT,但 vobsubocr 的输出质量显著更好,特别是对于非英语语言,主要是因为 VobSub2SRT 在将其发送到 Tesseract 之前几乎没有对图像进行预处理。例如,Tesseract 4.0 预期黑色文本在白色背景上,而 VobSub2SRT 不能保证这一点,但 vobsubocr 可以。此外,vobsubocr 将每一行拆分为单独的图像,以利用页面分割方法 7,这极大地提高了非英语语言的准确性。

有关如何提高 Tesseract 输出准确性的官方文档可以在此处查看:此处

其他说明

据我所知,chi_simchi_tra Tesseract 模型适用于简体和繁体中文文本,但会自动将文本转换为相应的形式。

依赖项

~35MB
~483K SLoC