#text #thai #nlp #c #lao

wordcutw

Wordcut的C接口包装器 - 一个老挝/泰语分词/断句库

3个不稳定版本

0.2.1 2024年2月28日
0.2.0 2023年12月6日
0.1.0 2021年4月23日

#1533 in 文本处理

每月47次下载

LGPL-3.0

12KB
235 代码行

wordcutw

Wordcut的C接口包装器 - 一个老挝/泰语分词/断句库

安装

git clone [email protected]:veer66/wordcutw.git
cd wordcutw
cargo build --release
sudo cp target/release/libwordcutw.so /usr/local/lib

示例

#include <stdio.h>
#include "wordcutw.h"

int
main()
{
  Wordcut *wordcut = wordcut_new_with_dict_from_default_dir("data/thai.txt");
  size_t range_count = 0;
  TextRange* text_ranges = wordcut_into_text_ranges(wordcut, "ลากา", &range_count);
  printf("COUNT = %zu\n", range_count);
  printf("R0 %zu_%zu\n", text_ranges[0].s, text_ranges[0].e);
  printf("R1 %zu_%zu\n", text_ranges[1].s, text_ranges[1].e);
  delete_text_ranges(text_ranges, range_count);
  delete_wordcut(wordcut);
  return 0;
}

依赖项

~12MB
~110K SLoC