loog
日本語に特化したOCR、文書画像解析 YomiToku | 株式会社バンコム

日本語に特化したOCR、文書画像解析 YomiToku

November 27, 2024

Kotaro.Kinoshita さんが、日本語OCRを公開しました。

https://note.com/kotaro_kinoshita/n/n70df91659afc

文書のレイアウト構造や図表の解析機能など、文書画像を解析するための包括的な機能を搭載しています。

と書かれていますが、実際OCR結果を見ると、どの順に目を動かせばいいのかを推定しつつ、OCRしているようです。

Github

https://github.com/kotaro-kinoshita/yomitoku

やってみる

複数枚のPDFを縦に並べたものを撮影した。

OCR実行

$ yomitoku ai_chosakuken.png -f md -o results -v --figure

OCR結果

MD(マークダウン)フォーマットで生成される。
ヘッディングや画像部分など、見やすくするために、手で修正してます。

AIと著作権

令和5年6月
文化庁著作権課

はじめに:本セミナーについて

■いわゆる、

生成AI(Generative Artificial Intelligence)
が急速に発展·普及しています。

■生成AIの急速な発展·普及のなかで、著作権関係を含め、
AI生成物がもたらす様々な影響等について議論がされています。

今回の著作権セミナーでは、著作権法の正しい理解に基づいて
生成AIの利活用がされるよう、現行の著作権法の考え方や
AIと著作権の関係についてご説明します。

はじめに:ご留意いただきたい事項

2

■時間の制約上、本セミナーではAIと著作権の関係に限定して
取り上げます。

著作権制度の全体像等については文化庁で作成·公表している
教材等をご参照ください。

■本セミナーでは主に、著作者の権利について取り扱います。
俳優·歌手·演奏家等の「実演」や、「レコード」などについて生じる
「著作隣接権」についても、AIとの関係は問題となり得る点に
ご留意ください。

3

解析の解説

面白いのが、どの様にOCRしたのかを画像として残してくれるところ。

ライセンス

ライセンスに関しては、CC BY-NC-SA 4.0に設定しています。個人や研究、検証目的での利用は問題ありません。商用利用は別途、商用ライセンスが必要になります。YomiTokuはOSSではないので、その点に注意してください。

感想

素晴らしい精度ではないでしょうか。

ライセンス料金を知りたいトロコです!