【コピペOK】Tesseractで日本語を文字認識(OCR)する手順

【コピペOK】Tesseractで日本語を文字認識(OCR)する手順

 

★悩み★
・OCR(文字認識)ソフトであるTesseractを使ってみたいなぁ。
・Tesseractを使って、日本語が記載された画像の文字認識をしたい。
・Tesseract(OCR/文字認識ソフト)で日本語を認識する手順を知りたい。



こういった「悩み」に答えます。
 

★本記事の内容★
➀ Tesseractで日本語を文字認識(OCR)するための準備をご紹介
➁ Tesseractで日本語を文字認識(OCR)する手順をご紹介



これからご紹介する「【コピペOK】Tesseractで日本語を文字認識(OCR)する手順」を実践したことで、筆者は20分以内でTesseractで日本語の文字認識をできました。

記事の前半では「Tesseractで日本語を文字認識(OCR)するための準備」をコマンドベースで紹介します。記事の後半では「Tesseractで日本語を文字認識(OCR)する手順」を紹介します。

この記事を読み終えることで、「Tesseract(OCR/文字認識ソフト)で日本語の文字認識」を実現できます。
 

★Tesseractとは★
Tesseractは、Google社が開発しているオープンソースの光学式文字認識ソフトウェアです。Tesseractのライセンスは、Apache License 2.0(2021年10月11日時点)であるため、「無料で画像内の文字抽出」ができます。
メリット/デメリットや事例に関しては、以下の記事をご覧ください。
>> 【要点】Tesseractとはを解消!初心者向けに特徴から使い方を図解



ちなみに、「Tesseractで縦書き日本語を文字認識(OCR)する手順を知りたい」方は、以下の記事をご覧ください。
 


 

Tesseractで日本語を文字認識(OCR)するための準備

Tesseractで日本語を文字認識(OCR)するための準備


「Tesseractで日本語を文字認識(OCR)するための準備」に関してご紹介します。

★Tesseractで日本語を文字認識(OCR)するための準備★
手順1:OCR(文字認識)ソフトであるTesseractをインストール
手順2:Tesseractで文字認識(OCR)させたい日本語の画像をダウンロード



上記の流れで、「Tesseractで日本語を文字認識(OCR)するための準備」ができます。
 

上記の各手順は、以下の日時と環境で動作確認済みです。
Tesseractのバージョン:4.1.1-rc2-20-g01fb
動作確認済み日時:2021年10月6日
動作確認済み環境:CentOS Linux release 7.7.1908 (Core)



以降で、上記「Tesseractで日本語を文字認識(OCR)するための準備」の各手順に関してご説明します。
 

手順1:OCR(文字認識)ソフトであるTesseractをインストール

「手順1:OCR(文字認識)ソフトであるTesseractをインストール」に関して解説します。
 

画像をOCR(文字認識)するために、OCR(文字認識)ソフトウェアであるTesseractをインストールしましょう。



「Tesseractのインストール手順」に関しては、以下の記事をご覧ください。
 

>> 【Ubuntu向け】Tesseract(OCRフリーソフト)のインストール手順

>> 【Windows向け】Tesseract(OCR/文字認識)のインストール手順

>> 【Mac向け】Tesseract(OCR/文字認識)をインストールする手順

>> 【Linux向け】Tesseract(OCR/文字認識)をインストールする手順
 

既にTesseractをインストールされている方は、本手順を省略してください。



以上で、「手順1:OCR(文字認識)ソフトであるTesseractをインストール」は完了です。
 

手順2:Tesseractで文字認識(OCR)させたい日本語の画像をダウンロード

「手順2:Tesseractで文字認識(OCR)させたい日本語の画像をダウンロード」に関して解説します。
 

Tesseractで文字認識させたい日本語の画像をダウンロードしましょう。



以降では、下の画像を用いた手順などを解説します。
 

手順2:Tesseractで文字認識(OCR)させたい日本語の画像をダウンロード



以上で、「手順2:Tesseractで文字認識(OCR)させたい日本語の画像をダウンロード」は完了です。
 

上記の流れで、Tesseractで日本語を文字認識(OCR)するための準備ができました。


 

Tesseractで日本語を文字認識(OCR)する手順

Tesseractで日本語を文字認識(OCR)する手順


「Tesseractで日本語を文字認識(OCR)する手順」に関してご紹介します。

★Tesseractで日本語を文字認識(OCR)する流れ★
手順1:Tesseract内に日本語の学習データがあることを確認
手順2:Tesseractで日本語を文字認識(OCR)する



上記の流れで、「日本語が記載された画像から文字認識」できます。
 

上記の各手順は、以下の日時と環境で動作確認済みです。
Tesseractのバージョン:4.1.1-rc2-20-g01fb
動作確認済み日時:2022年11月23日
動作確認済み環境:CentOS Linux release 7.7.1908 (Core)/Windows 11 Pro



以降で、上記「Tesseractで日本語を文字認識(OCR)する流れ」の各手順に関してご説明します。
 

手順1:Tesseract内に日本語の学習データがあることを確認

「手順1:Tesseract内に日本語の学習データがあることを確認」に関して解説します。
 

Tesseract内に「日本語の学習データ(辞書みたいなもの)」がないと、日本語の文字認識ができません。まずは、存在することを確認しましょう。



Tesseract内に日本語の学習データが存在することを確認するために、以下のコマンドを実行してください。

# tesseract --list-langs
List of available languages (4):
deu
eng
jpn
osd
# 



コマンド実行後、「jpn」が表示された場合、「Tesseract内に日本語の学習データが存在する」と判断できます。
 

「jpn」が表示されなかった場合は、「Tesseract内に日本語の学習データをインストール」するために、以下のコマンドを実行してください。

# yum install tesseract-langpack-jpn



以上で、「手順1:Tesseract内に日本語の学習データがあることを確認」は完了です。
 

手順2:Tesseractで日本語を文字認識(OCR)する

「手順2:Tesseractで日本語を文字認識(OCR)する」に関して解説します。
 

Tesseractで日本語が記載された画像を文字認識してみましょう。



日本語が記載された画像を文字認識(OCR)するために、以下のコマンドを実行してください。コマンド内の「適宜変更」と書いてある部分は、自分用に書き換えてください。

# tesseract -l jpn <日本語が記載された画像のPath(適宜変更)> stdout
Warning: Invalid resolution 0 dpi. Using 70 instead.
Estimating resolution as 174
日本PostgreSQLユーザ会
日本PostgreSQLユーザ会 (略称 JPUG) のWebサイトです。

PostgreSQLの日本語訳マニュアル、PostgreSQLダウンロードへのリンク、各種イベントの
お知らせ、ユーザ会各組織の情報を掲載しています。

毎年カンファレンスを開催しています。

# 



正解データと突き合わせたところ、間違いなく日本語の文字認識(OCR)ができていました。
 

以上で、「手順2:Tesseractで日本語を文字認識(OCR)する」は完了です。
 

上記の流れで、Tesseractで日本語を文字認識(OCR)できました。


 

【まとめ】Tesseractで日本語を文字認識(OCR)する手順

【まとめ】Tesseractで日本語を文字認識(OCR)する手順


今回の記事を通して、「【コピペOK】Tesseractで日本語を文字認識(OCR)する手順」をご紹介することで、以下の悩みを解消しました。
 

★悩み★
・OCR(文字認識)ソフトであるTesseractを使ってみたいなぁ。
・Tesseractを使って、日本語が記載された画像の文字認識をしたい。
・Tesseract(OCR/文字認識ソフト)で日本語を認識する手順を知りたい。



Tesseractで日本語を文字認識(OCR)する手順」で悩んでいるあなたにこの記事が少しでも役に立てれば幸いです。


 

タイトルとURLをコピーしました