Digital Digesta WorkshopにてmLLMを活用したOCRシステムについて発表しました

2/8/2026

先日開催された「Digital Digesta Workshop」にて、名古屋大学デジタル人文社会科学研究推進センター（国立情報学研究所客員）の岩田直也が、Humanitextプロジェクトの最新の成果として「Toward Digital Digesta: An mLLM-Based OCR System for Legal Code Digitization（デジタル・ディジェスタに向けて：法典デジタル化のためのmLLMベースOCRシステム）」と題した発表を行いました。

古典テキストのデジタル化における課題

ローマ法大全の一部である『学説彙纂（Digesta）』をはじめとする西洋古典テキストは、複雑な脚注、行番号、多段組みのレイアウトを持つことが多く、これまでの機械読解において大きな壁となっていました。人文学の分野で広く用いられているTesseractやTranskribusといった従来のOCR（光学文字認識）やHTR（手書き文字認識）エンジンは、テキストを認識することには長けているものの、不要なレイアウト要素の除去や論理的な構造化といった処理には限界がありました。

マルチモーダルLLMがもたらすOCRの革新

この課題に対し、岩田を中心とした研究チームは、画像とテキストを同時に処理できるマルチモーダル大規模言語モデル（mLLM）の可能性に着目しました。本発表では、Googleの最新モデル「Gemini 2.5 Flash」をバックエンドに採用した『Humanitext OCR』システムの概要と、その卓越したパフォーマンスが報告されました。

このシステムの最大の特長は、自然言語の指示（プロンプト）によって柔軟なテキスト抽出が可能である点です。たとえば、「脚注を削除して本文のみを抽出して」「JSON形式で出力して」といった指示を与えるだけで、これまで多大な労力を要していたレイアウト解析のプロセスを大幅に簡略化することができます。

実際のラテン語の古典テキスト（Manilius, Astronomica）を用いた評価テストでは、第一パスの単語認識精度が99%を超え、同モデルによる自動補正処理を経た後の単語誤り率（WER）は実に0.07%にまで低下しました。懸念されていた脚注テキストの混入や記号の認識エラーも劇的に減少し、極めて実用性の高いシステムであることが証明されました。

研究者にひらかれた高精度ツールとして

Humanitext OCRは、プログラミングの知識を持たない研究者でも手軽に利用できる「ノーコード」のウェブインターフェースを備えており、1日最大20ページまで無料で利用できる形で提供される予定です。また、1ページあたりの処理コストも約0.8円（推定）と非常に低く抑えられており、mLLMによる文字認識がコスト面でも現実的な選択肢となったことを示しています。

今後の展望

現在は『学説彙纂（Digesta）』本体のOCR処理が進行中であり、今後はTEI/XML形式での出力や、人名・地名・法律用語に対する固有表現抽出（NER）タギングの実装が計画されています。Humanitextプロジェクトは、誰もがアクセス・分析可能な「機械可読な古典文献の包括的なエディション」の実現に向けて、今後も技術革新を続けてまいります。