国会図書館が古典籍資料のデジタル化画像からテキストデータを作成するOCRを発表
2024年12月6日(金)
国立国会図書館は11月26日、古典籍資料のデジタル化画像からテキストデータを作成するOCR「NDL古典籍OCR-Lite」を公開した。
「NDL古典籍OCR-Lite」は、ノートパソコンなどの一般的な家庭用コンピュータやOS環境で、江戸期以前の和古書、清代以前の漢籍といった古典籍資料のデジタル化画像からテキストデータが作成できる軽量なOCR。
これまで国会図書館が実験的に開発したプログラム(NDL古典籍OCR)では実行環境にGPUを必須としていたが、この点を「NDL古典籍OCR-Lite」では解消しており、GPUがなくても利用できるようになっている。デスクトップアプリケーションとなっており、マウス操作のみで簡単に利用できる。
「NDL古典籍OCR-Lite」の動作OSはWindows、MacOS、Linuxとなっており、GitHubから入手できる。
アナウンス
GitHub
「NDL古典籍OCR-Lite」は、ノートパソコンなどの一般的な家庭用コンピュータやOS環境で、江戸期以前の和古書、清代以前の漢籍といった古典籍資料のデジタル化画像からテキストデータが作成できる軽量なOCR。
これまで国会図書館が実験的に開発したプログラム(NDL古典籍OCR)では実行環境にGPUを必須としていたが、この点を「NDL古典籍OCR-Lite」では解消しており、GPUがなくても利用できるようになっている。デスクトップアプリケーションとなっており、マウス操作のみで簡単に利用できる。
「NDL古典籍OCR-Lite」の動作OSはWindows、MacOS、Linuxとなっており、GitHubから入手できる。
(川原 龍人/びぎねっと)
[関連リンク]アナウンス
GitHub
その他のニュース
- 2024/12/11 オープンソースのエミュレーター「QEMU 9.2」リリース
- 2024/12/10 systemdの代替を目指すサービスマネージャ「GNU Shepherd 1.0」リリース
- 2024/12/9 軽量なLinuxディストリビューション「manjaro 24.2」リリース
- 2024/12/9 JavaScript/TypeScript対応Webフレームワーク「Astro 5.0」リリース
- 2024/12/8 openSUSE project、「openSUSE Leap micro 6.1」をリリース
Think ITメルマガ会員登録受付中
Think ITでは、技術情報が詰まったメールマガジン「Think IT Weekly」の配信サービスを提供しています。メルマガ会員登録を済ませれば、メルマガだけでなく、さまざまな限定特典を入手できるようになります。
全文検索エンジンによるおすすめ記事
- テキストユーザインターフェイス構築ツール「Notcurses 2.4」リリース
- テキストユーザインターフェイス構築ツール「Notcurses 2.4」リリース
- メディアドライブ、OCRソフトウェア「e.Typist v.15.0」を発表
- WSL2登場でWindowsは有力なWeb開発環境に
- 時計待ち受けを作ろう!
- なくならないFAXを活用して、システム面でどう業務効率を向上させるか
- Macで株取引ができる国内初の総合ツール「MARKETSPEED for Mac」が登場
- カンファレンスの前にGitHubのオフィスを探訪
- Flash Liteのまとめと今後
- 急速に関心が高まる「RPA(Robotic Process Automation)」