【Ubuntu向け】Tesseract(OCRフリーソフト)のインストール手順

 

【悩み】
・Ubuntu向けのOCR(文字認識)フリーソフトであるTesseractを使いたい。
・TesseractをUbuntuにインストールする方法を知りたい。
・TesseractがUbuntuにインストール済みか確認する方法を知りたい。



こういった「悩み」に答えます。
 

【本記事の内容】
① Tesseractとは?:PDFや画像から文字を抽出できる無料ソフト
➁ Tesseractを2手順でUbuntuにインストールする方法
➂ UbuntuにTesseractがインストールできたかを確認する方法



これからご紹介する「【Ubuntu向け】Tesseract(OCRフリーソフト)のインストール手順」を実践したことで、筆者は10分以内でTesseractをUbuntuにインストールできました。
 

記事の前半では「そもそもTesseractとは何か?」を解説します。

記事の後半では「UbuntuにTesseractをインストールする方法」と「インストールできたかを確認する方法」を紹介します。
 

この記事を読み終えることで、「Tesseract(OCR/文字認識ソフト)をUbuntuにインストールする方法」を把握できます。
 

ちなみに、Fedora系(CentOS/RHELなど)のLinuxにTesseractをインストールする方法を知りたい方には、以下の記事がオススメです。

>> 【Linux向け】Tesseract(OCR/文字認識)をインストールする手順


 

Tesseractとは?:PDFや画像から文字を抽出できる無料ソフト


「Tesseractとは?」/「特徴」/「ユースケース(利用場面)」に関しては、以下の記事をご覧ください。

>> 【要点】Tesseractとはを解消!初心者向けに特徴から使い方を図解


 

PDFや画像から文字を抽出したい場合、OCRフリーソフトであるTesseractの利用を検討しましょう。以降で、UbuntuにTesseractのインストール方法を紹介しますね。


 

Tesseractを2手順でUbuntuにインストールする方法


「Tesseractを2手順でUbuntuにインストールする方法」に関してご紹介します。
 

【Tesseract(OCRフリーソフト)をインストールするまでの流れ】
手順1:TesseractのUbuntu用リポジトリを追加
手順2:apt-getでTesseractをUbuntuにインストール



上記手順を実施することで、Tesseractをインストールできます。
 

上記の各手順は、以下の日時と環境で動作確認済みです。
動作確認済み日時:2022年11月5日
動作確認済み環境:Ubuntu 20.04.3 LTS



以降で、上記の各手順に関してご説明します。
 

TesseractのUbuntu用リポジトリを追加

まずは、TesseractのUbuntu用リポジトリを追加しましょう。
 

リポジトリを追加するために、add-apt-repositoryコマンドを実行します。



端末を起動し、以下のコマンドを実行してください。

$ sudo add-apt-repository ppa:alex-p/tesseract-ocr
・
・
・
Fetched 3,408 kB in 3s (1,020 kB/s)
Reading package lists... Done
$ sudo apt-get update



コマンド実行後、「Done」が表示された場合、「正常にTesseractのUbuntu用リポジトリを追加できた」と判断できます。
 

apt-getでTesseractをUbuntuにインストール

続いて、TesseractをUbuntuにインストールしましょう。
 

apt-getコマンド経由でTesseractをUbuntuにインストールします。



端末上で、以下のコマンドを実行してください。

$ sudo apt install tesseract-ocr



以上で、UbuntuにTesseractをインストールできました。
 

上記の流れで、Tesseract(OCRフリーソフト)をUbuntuにインストールできました。
以降で、Tesseractがインストールできたかを確認してみましょう。


 

UbuntuにTesseractがインストールできたかを確認する方法


「UbuntuにTesseractがインストールできたかを確認する方法」に関してご紹介します。
 

【Tesseractがインストールできたかを確認する方法】
・Tesseractのバージョンを確認するコマンドを実行
・TesseractのコマンドPATHを確認



上記でTesseractがインストールできたかを確認できます。
 

上記の各操作は、以下の日時と環境で動作確認済みです。
動作確認済み日時:2022年11月5日
動作確認済み環境:Ubuntu 20.04.3 LTS



以降で、上記の各項目に関してご説明します。
 

Tesseractのバージョンを確認するコマンドを実行

Tesseractのバージョンを確認するコマンド「tesseract -v」を実行することで、TesseractがUbuntuにインストールされたかを確認できます。

$ tesseract -v
tesseract 4.1.3
 leptonica-1.79.0
  libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 2.0.3) : libpng 1.6.37 : libtiff 4.1.0 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.3.1
 Found AVX2
 Found AVX
 Found SSE
 Found libarchive 3.4.0 zlib/1.2.11 liblzma/5.2.4 bz2lib/1.0.8 liblz4/1.9.2 libzstd/1.4.4



コマンド実行後、「tesseract <バージョン名>」が表示された場合、「正常にTesseractをUbuntuにインストールできた」と判断できます。
 

TesseractのコマンドPATHを確認

TesseractのコマンドPATHを確認「which」を実行することで、TesseractがUbuntuにインストールされたかを確認できます。

$ which tesseract
/usr/bin/tesseract



コマンド実行後、「/usr/bin/tesseract」が表示された場合、「正常にTesseractをUbuntuにインストールできた」と判断できます。
 

上記の2つの方法で、UbuntuにTesseractがインストールできたかを確認できました。


 

ちなみに、Tesseractの使い方を体系的に学びたい方には、以下の記事がオススメです。最短一週間でTesseractの基本的な使い方を無料で習得できます。

>> Tesseractの使い方【インストール→OCRの例→Python/Ruby】


 

【まとめ】Tesseract(OCRフリーソフト)のインストール手順【Ubuntu向け】


いかがでしたでしょうか?

上記で紹介した「apt-get」を使うことで、簡単に「TesseractをUbuntuにインストール」できます。

最後にもう一度内容を確認しましょう。
 

【まとめ】
・add-apt-repositoryでリポジトリを追加
・apt-getでUbuntuにTesseractをインストール
・tesseract -v コマンドでインストール済みかを確認可能



本ブログでは、Tesseractの使い方を体系的に学べる方法をご紹介しています。最短一週間でTesseractの基本的な使い方を無料で習得できます。

>> Tesseractの使い方【インストール→OCRの例→Python/Ruby】

コメント