日本語に特化したOCR、文書�画像解析 YomiToku

Kotaro.Kinoshita さんが、日本語OCRを公開しました。

文書のレイアウト構造や図表の解析機能など、文書画像を解析するための包括的な機能を搭載しています。

と書かれていますが、実際OCR結果を見ると、どの順に目を動かせばいいのかを推定しつつ、OCRしているようです。

Github

複数枚のPDFを縦に並べたものを撮影した。

$ yomitoku ai_chosakuken.png -f md -o results -v --figure

MD（マークダウン）フォーマットで生成される。
ヘッディングや画像部分など、見やすくするために、手で修正してます。

令和5年6月
文化庁著作権課

生成AI(Generative Artificial Intelligence)
が急速に発展·普及しています。

■生成AIの急速な発展·普及のなかで、著作権関係を含め、
AI生成物がもたらす様々な影響等について議論がされています。

今回の著作権セミナーでは、著作権法の正しい理解に基づいて
生成AIの利活用がされるよう、現行の著作権法の考え方や
AIと著作権の関係についてご説明します。

■時間の制約上、本セミナーではAIと著作権の関係に限定して
取り上げます。

著作権制度の全体像等については文化庁で作成·公表している
教材等をご参照ください。

■本セミナーでは主に、著作者の権利について取り扱います。
俳優·歌手·演奏家等の「実演」や、「レコード」などについて生じる
「著作隣接権」についても、AIとの関係は問題となり得る点に
ご留意ください。

面白いのが、どの様にOCRしたのかを画像として残してくれるところ。

ライセンスに関しては、CC BY-NC-SA 4.0に設定しています。個人や研究、検証目的での利用は問題ありません。商用利用は別途、商用ライセンスが必要になります。YomiTokuはOSSではないので、その点に注意してください。

素晴らしい精度ではないでしょうか。

ライセンス料金を知りたいトロコです！

日本語に特化したOCR、文書画像解析 YomiToku