【コピペOK】Tesseractでダウンロードした学習データを使う手順

★悩み★
・OCRソフトのTesseractでダウンロードした学習データを使えるのかな？
・ウェブ上にTesseractで利用できる学習データってあるのかな？
・ダウンロードした学習データをTesseractで使う手順を知りたい。

こういった「悩み」に答えます。
　

★本記事の内容★
➀ Tesseractでダウンロードした学習データを使うための準備を紹介
➁ Tesseractでダウンロードした学習データで文字認識(OCR)する手順を紹介

これからご紹介する「【コピペOK】Tesseractでダウンロードした学習データを使う手順」を実践したことで、筆者は20分以内でウェブからダウンロードした学習データを使ってTesseractで文字認識(OCR)をできました。
　

記事の前半では「Tesseractでダウンロードした学習データを使うための準備」をコマンドベースで紹介します。記事の後半では「Tesseractでダウンロードした学習データで文字認識(OCR)する手順」を紹介します。
　

この記事を読み終えることで、「ウェブ上に公開された学習データを使ってTesseract(OCR/文字認識ソフト)で文字認識」を実現できます。
　

ちなみに、「縦書き日本語を文字認識する」といったTesseract関連の情報を知りたい方には、以下のURLがオススメです。
参照：Tesseract関連の記事一覧(本ブログ)
　

★Tesseractとは★
Tesseractは、Google社が開発しているオープンソースの光学式文字認識ソフトウェアです。Tesseractのライセンスは、Apache License 2.0(2021年10月11日時点)であるため、「無料で画像内の文字抽出」ができます。
メリット／デメリットや事例に関しては、以下の記事をご覧ください。
>> 【要点】Tesseractとはを解消！初心者向けに特徴から使い方を図解

Tesseractでダウンロードした学習データを使うための準備
1. 手順1：OCR(文字認識)ソフトであるTesseractをインストール
2. 手順2：Tesseractで文字認識(OCR)させたい画像をダウンロード
Tesseractでダウンロードした学習データで文字認識(OCR)する手順
【まとめ】Tesseractでダウンロードした学習データを使う手順

Tesseractでダウンロードした学習データを使うための準備

「Tesseractでダウンロードした学習データを使うための準備」に関してご紹介します。
　

★Tesseractでダウンロードした学習データを使うための準備★
手順1：OCR(文字認識)ソフトであるTesseractをインストール
手順2：Tesseractで文字認識(OCR)させたい画像をダウンロード

上記の流れで、「Tesseractでダウンロードした学習データを使うための準備」ができます。
　

上記の各手順は、以下の日時と環境で動作確認済みです。
Tesseractのバージョン：4.1.1-rc2-20-g01fb
動作確認済み日時：2021年10月6日
動作確認済み環境：CentOS Linux release 7.7.1908 (Core)

以降で、上記「Tesseractでダウンロードした学習データを使うための準備」の各手順に関してご説明します。
　

手順1：OCR(文字認識)ソフトであるTesseractをインストール

「手順1：OCR(文字認識)ソフトであるTesseractをインストール」に関して解説します。
　

ウェブ上に公開された学習データをダウンロードし使うためにも、OCR(文字認識)ソフトウェアであるTesseractをインストールしましょう。

「Tesseractのインストール手順」に関しては、以下の記事をご覧ください。
　

既にTesseractをインストールされている方は、本手順を省略してください。

以上で、「手順1：OCR(文字認識)ソフトであるTesseractをインストール」は完了です。
　

手順2：Tesseractで文字認識(OCR)させたい画像をダウンロード

「手順2：Tesseractで文字認識(OCR)させたい画像をダウンロード」に関して解説します。
　

Tesseractで文字認識させたい画像をダウンロードしましょう。

以降では、下の画像を用いた手順を解説します。
　

以上で、「手順2：Tesseractで文字認識(OCR)させたい画像をダウンロード」は完了です。
　

上記の流れで、Tesseractでダウンロードした学習データを使うための準備ができました。

Tesseractでダウンロードした学習データで文字認識(OCR)する手順

「Tesseractでダウンロードした学習データで文字認識(OCR)する手順」に関してご紹介します。
　

★Tesseractでダウンロードした学習データで文字認識(OCR)する流れ★
手順1：ウェブ上に公開されたTesseractの学習データをダウンロード
手順2：ダウンロードした学習データをTesseractのフォルダに格納
手順3：ダウンロードした学習データを使いTesseractで文字認識(OCR)する

上記の流れで、「ウェブ上に公開された学習データを使ってTesseractで文字認識(OCR)」できます。
　

以降で、上記「Tesseractでダウンロードした学習データで文字認識(OCR)する流れ」の各手順に関してご説明します。
　

手順1：ウェブ上に公開されたTesseractの学習データをダウンロード

「手順1：ウェブ上に公開されたTesseractの学習データをダウンロード」に関して解説します。
　

ウェブ上に公開されたTesseractの学習データをダウンロードしましょう。

Tesseractの学習データとして、以下がウェブ上に公開されています。
　

★ウェブ上に公開されたTesseractの学習データの一覧★
・Tesseractの学習データ(認識精度重視)
・Tesseractの学習データ(速度重視)

Tesseractの学習データをダウンロードするために、以下のコマンドを実行してください。

↓↓　認識精度重視なTesseractの学習データをダウンロードしたい場合　↓↓
# git clone https://github.com/tesseract-ocr/tessdata_best.git

↓↓　速度重視なTesseractの学習データをダウンロードしたい場合　↓↓
# git clone https://github.com/tesseract-ocr/tessdata_fast.git

gitコマンドのインストール方法に関しては、以下の記事をご覧ください。
　

以降では、認識精度重視なTesseractの学習データをダウンロードした想定で以降の手順を解説します。
　

以上で、「手順1：ウェブ上に公開されたTesseractの学習データをダウンロード」は完了です。
　

手順2：ダウンロードした学習データをTesseractのフォルダに格納

「手順2：ダウンロードした学習データをTesseractのフォルダに格納」に関して解説します。
　

ダウンロードした学習データをTesseractで使うためには、Tesseractのtessdataフォルダに格納が必要です。

ダウンロードした学習データをTesseractのtessdataフォルダに格納するために、以下のコマンドを順に実行してください。

# find / -name "eng.traineddata"
/tmp/tessdata_best/eng.traineddata             # ← git cloneでダウンロードした学習データ
/usr/share/tesseract/4/tessdata/eng.traineddat # ← tesseractが使っている学習データのPath
# cp -p /tmp/tessdata_best/eng.traineddata /usr/share/tesseract/4/tessdata/eng_bestdata.traineddata
# tesseract --list-langs
List of available languages (4):
deu
eng
eng_bestdata
osd

コマンド実行後、「eng_bestdata」が表示された場合、「正常にダウンロードした学習データをTesseractのフォルダに格納できた」と判断できます。
　

以上で、「手順2：ダウンロードした学習データをTesseractのフォルダに格納」は完了です。
　

手順3：ダウンロードした学習データを使いTesseractで文字認識(OCR)する

「手順3：ダウンロードした学習データを使いTesseractで文字認識(OCR)する」に関して解説します。
　

ダウンロードした学習データを使いTesseractで文字認識(OCR)をしてみましょう。

ダウンロードした学習データを使いTesseractで文字認識(OCR)するために、以下のコマンドを実行してください。コマンド内の「適宜変更」と書いてある部分は、自分用に書き換えてください。

# tesseract -l eng_bestdata <文字認識(OCR)したい画像のPath(適宜変更)> stdout
Warning: Invalid resolution 0 dpi. Using 70 instead.
Estimating resolution as 192
The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing.

The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of
computers using simple programming models. It is designed to scale up from single servers to thousands of machines, each
offering local computation and storage. Rather than rely on hardware to deliver high-availability, the library itself is designed to detect
and handle failures at the application layer, so delivering a highly-available service on top of a cluster of computers, each of which
may be prone to failures.

正解データと突き合わせたところ、間違いなく英数字の文字認識(OCR)ができていました。
　

以上で、「手順3：ダウンロードした学習データを使いTesseractで文字認識(OCR)する」は完了です。
　

上記の流れで、Tesseractでダウンロードした学習データで文字認識(OCR)ができました。