国会図書館が古典籍資料のデジタル化画像からテキストデータを作成するOCRを発表

2024年12月6日 1:24

 国立国会図書館は11月26日、古典籍資料のデジタル化画像からテキストデータを作成するOCR「NDL古典籍OCR-Lite」を公開した。

 「NDL古典籍OCR-Lite」は、ノートパソコンなどの一般的な家庭用コンピュータやOS環境で、江戸期以前の和古書、清代以前の漢籍といった古典籍資料のデジタル化画像からテキストデータが作成できる軽量なOCR。

 これまで国会図書館が実験的に開発したプログラム(NDL古典籍OCR)では実行環境にGPUを必須としていたが、この点を「NDL古典籍OCR-Lite」では解消しており、GPUがなくても利用できるようになっている。デスクトップアプリケーションとなっており、マウス操作のみで簡単に利用できる。

 「NDL古典籍OCR-Lite」の動作OSはWindows、MacOS、Linuxとなっており、GitHubから入手できる。

(川原 龍人/びぎねっと)

[関連リンク]
アナウンス
GitHub

この記事をシェアしてください

人気記事トップ10

人気記事ランキングをもっと見る