【コピペOK】Tesseractで英数字を文字認識(OCR)する手順

★悩み★
・OCR(文字認識)ソフトであるTesseractを使ってみたいなぁ。
・Tesseractを使って、英数字が記載された画像の文字認識をしたい。
・Tesseract(OCR／文字認識ソフト)で英数字を認識する手順を知りたい。

こういった「悩み」に答えます。
　

★本記事の内容★
➀ Tesseractで英数字を文字認識(OCR)するための準備をご紹介
➁ Tesseractで英数字を文字認識(OCR)する手順をご紹介

これからご紹介する「【コピペOK】Tesseractで英数字を文字認識(OCR)する手順」を実践したことで、筆者は20分以内でTesseractで英数字の文字認識をできました。
　

記事の前半では「Tesseractで英数字を文字認識(OCR)するための準備」をコマンドベースで紹介します。記事の後半では「Tesseractで英数字を文字認識(OCR)する手順」を紹介します。
　

この記事を読み終えることで、「Tesseract(OCR/文字認識ソフト)で英数字の文字認識」を実現できます。
　

★Tesseractとは★
Tesseractは、Google社が開発しているオープンソースの光学式文字認識ソフトウェアです。Tesseractのライセンスは、Apache License 2.0(2021年10月11日時点)であるため、「無料で画像内の文字抽出」ができます。
メリット／デメリットや事例に関しては、以下の記事をご覧ください。
>> 【要点】Tesseractとはを解消！初心者向けに特徴から使い方を図解

ちなみに、「Tesseractで日本語を文字認識(OCR)する手順」を知りたい方は、以下の記事をご覧ください。
　

Tesseractで英数字を文字認識(OCR)するための準備
1. 手順1：OCR(文字認識)ソフトであるTesseractをインストール
2. 手順2：Tesseractで文字認識させたい英数字の画像をダウンロード
Tesseractで英数字を文字認識(OCR)する手順
1. 手順1：Tesseract内に英語の学習データがあることを確認
2. 手順2：Tesseractで英数字を文字認識(OCR)する
【まとめ】Tesseractで英数字を文字認識(OCR)する手順

Tesseractで英数字を文字認識(OCR)するための準備

「Tesseractで英数字を文字認識(OCR)するための準備」に関してご紹介します。
　

★Tesseractで英数字を文字認識(OCR)するための準備★
手順1：OCR(文字認識)ソフトであるTesseractをインストール
手順2：Tesseractで文字認識させたい英数字の画像をダウンロード

上記の流れで、「Tesseractで英数字を文字認識(OCR)するための準備」ができます。
　

上記の各手順は、以下の日時と環境で動作確認済みです。
Tesseractのバージョン：4.1.1-rc2-20-g01fb
動作確認済み日時：2021年10月6日
動作確認済み環境：CentOS Linux release 7.7.1908 (Core)

以降で、上記「Tesseractで英数字を文字認識(OCR)するための準備」の各手順に関してご説明します。
　

手順1：OCR(文字認識)ソフトであるTesseractをインストール

「手順1：OCR(文字認識)ソフトであるTesseractをインストール」に関して解説します。
　

画像をOCR(文字認識)するために、OCR(文字認識)ソフトウェアであるTesseractをインストールしましょう。

「Tesseractのインストール手順」に関しては、以下の記事をご覧ください。
　

既にTesseractをインストールされている方は、本手順を省略してください。

以上で、「手順1：OCR(文字認識)ソフトであるTesseractをインストール」は完了です。
　

手順2：Tesseractで文字認識させたい英数字の画像をダウンロード

「手順2：Tesseractで文字認識させたい英数字の画像をダウンロード」に関して解説します。
　

Tesseractで文字認識させたい英数字の画像をダウンロードしましょう。

以降では、下の画像を用いた手順などを解説します。
　

以上で、「手順2：Tesseractで文字認識させたい英数字の画像をダウンロード」は完了です。
　

上記の流れで、Tesseractで英数字を文字認識(OCR)するための準備ができました。

Tesseractで英数字を文字認識(OCR)する手順

「Tesseractで英数字を文字認識(OCR)する手順」に関してご紹介します。
　

★Tesseractで英数字を文字認識(OCR)する流れ★
手順1：Tesseract内に英語の学習データがあることを確認
手順2：Tesseractで英数字を文字認識(OCR)する

上記の流れで、「英数字が記載された画像から文字認識」できます。
　

以降で、上記「Tesseractで英数字を文字認識(OCR)する流れ」の各手順に関してご説明します。
　

手順1：Tesseract内に英語の学習データがあることを確認

「手順1：Tesseract内に英語の学習データがあることを確認」に関して解説します。
　

Tesseract内に「英語の学習データ(辞書みたいなもの)」がないと、英数字の文字認識ができません。まずは、存在することを確認しましょう。

Tesseract内に英語の学習データが存在することを確認するために、以下のコマンドを実行してください。

# tesseract --list-langs
List of available languages (4):
deu
eng
jpn
osd
#

コマンド実行後、「eng」が表示された場合、「Tesseract内に英語の学習データが存在する」と判断できます。
　

以上で、「手順1：Tesseract内に英語の学習データがあることを確認」は完了です。
　

手順2：Tesseractで英数字を文字認識(OCR)する

「手順2：Tesseractで英数字を文字認識(OCR)する」に関して解説します。
　

Tesseractで英数字を文字認識してみましょう。

英数字が記載された画像を文字認識(OCR)するために、以下のコマンドを実行してください。コマンド内の「適宜変更」と書いてある部分は、自分用に書き換えてください。

# tesseract -l eng <英数字が記載された画像(適宜変更)> stdout
Warning: Invalid resolution 0 dpi. Using 70 instead.
Estimating resolution as 192
The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing.

The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of
computers using simple programming models. It is designed to scale up from single servers to thousands of machines, each
offering local computation and storage. Rather than rely on hardware to deliver high-availability, the library itself is designed to detect
and handle failures at the application layer, so delivering a highly-available service on top of a cluster of computers, each of which
may be prone to failures.
#

正解データと突き合わせたところ、間違いなく英数字の文字認識(OCR)ができていました。
　

以上で、「手順2：Tesseractで英数字を文字認識(OCR)する」は完了です。
　

上記の流れで、Tesseractで英数字を文字認識(OCR)できました。