#docx #markdown #open-office #parser #file-format #json-format

bin+lib docx-parser

解析 Word 和 OpenOffice DOCX 文件,并输出 Markdown 或 JSON

1 个不稳定版本

0.1.1 2024 年 5 月 21 日

#1610编码

MIT/Apache

140KB
963

DOXC-PARSER

此包使用 docx-rs 包来解析 docx 文件。然后将其转换为 Markdown 格式。或者,它也可以用于将 docx 文件转换为 JSON 格式,其中仅保留创建 Markdown 文档相关的结构。

它可以作为一个库使用,或者您也可以安装它并从命令行使用。

命令行应用程序

$ git clone https://github.com/erikvullings/docx-parser.git
$ cargo install --path .
$ docx-parser -h

Processes a DOCX file and outputs as Markdown or JSON

Usage: docx-parser [OPTIONS] <FILE>

Arguments:
  <FILE>  The input DOCX file

Options:
  -o, --output <OUTPUT>  Sets the output destination. Default is console
  -f, --format <FORMAT>  Sets the output format. Default is markdown. Options: md, json, pretty_json
  -h, --help             Print help
  -V, --version          Print version

# Example
$ docx-parser ./test/tables.docx -f pretty_json

use docx_parser::MarkdownDocument;

let markdown_doc = MarkdownDocument::from_file("./test/tables.docx");
let markdown = markdown_doc.to_markdown(true);
let json = markdown_doc.to_json(true);

println!("\n\n{}", markdown);
println!("\n\n{}", json);

开发命令

cargo update
cargo test
cargo build --release

依赖项

~6MB
~106K SLoC