国会図書館が古典籍資料のデジタル化画像からテキストデータを作成するOCRを発表

2024年12月6日(金)
 国立国会図書館は11月26日、古典籍資料のデジタル化画像からテキストデータを作成するOCR「NDL古典籍OCR-Lite」を公開した。

 「NDL古典籍OCR-Lite」は、ノートパソコンなどの一般的な家庭用コンピュータやOS環境で、江戸期以前の和古書、清代以前の漢籍といった古典籍資料のデジタル化画像からテキストデータが作成できる軽量なOCR。

 これまで国会図書館が実験的に開発したプログラム(NDL古典籍OCR)では実行環境にGPUを必須としていたが、この点を「NDL古典籍OCR-Lite」では解消しており、GPUがなくても利用できるようになっている。デスクトップアプリケーションとなっており、マウス操作のみで簡単に利用できる。

 「NDL古典籍OCR-Lite」の動作OSはWindows、MacOS、Linuxとなっており、GitHubから入手できる。

(川原 龍人/びぎねっと)

[関連リンク]
アナウンス
GitHub

Think ITメルマガ会員登録受付中

Think ITでは、技術情報が詰まったメールマガジン「Think IT Weekly」の配信サービスを提供しています。メルマガ会員登録を済ませれば、メルマガだけでなく、さまざまな限定特典を入手できるようになります。

Think ITメルマガ会員のサービス内容を見る