【悩み】
・Ubuntu向けのOCR(文字認識)フリーソフトであるTesseractを使いたい。
・TesseractをUbuntuにインストールする方法を知りたい。
・TesseractがUbuntuにインストール済みか確認する方法を知りたい。
こういった「悩み」に答えます。
【本記事の内容】
① Tesseractとは?:PDFや画像から文字を抽出できる無料ソフト
➁ Tesseractを2手順でUbuntuにインストールする方法
➂ UbuntuにTesseractがインストールできたかを確認する方法
これからご紹介する「【Ubuntu向け】Tesseract(OCRフリーソフト)のインストール手順」を実践したことで、筆者は10分以内でTesseractをUbuntuにインストールできました。
記事の前半では「そもそもTesseractとは何か?」を解説します。
記事の後半では「UbuntuにTesseractをインストールする方法」と「インストールできたかを確認する方法」を紹介します。
この記事を読み終えることで、「Tesseract(OCR/文字認識ソフト)をUbuntuにインストールする方法」を把握できます。
ちなみに、Fedora系(CentOS/RHELなど)のLinuxにTesseractをインストールする方法を知りたい方には、以下の記事がオススメです。
>> 【Linux向け】Tesseract(OCR/文字認識)をインストールする手順
Tesseractとは?:PDFや画像から文字を抽出できる無料ソフト
「Tesseractとは?」/「特徴」/「ユースケース(利用場面)」に関しては、以下の記事をご覧ください。
>> 【要点】Tesseractとはを解消!初心者向けに特徴から使い方を図解
PDFや画像から文字を抽出したい場合、OCRフリーソフトであるTesseractの利用を検討しましょう。以降で、UbuntuにTesseractのインストール方法を紹介しますね。
Tesseractを2手順でUbuntuにインストールする方法
「Tesseractを2手順でUbuntuにインストールする方法」に関してご紹介します。
【Tesseract(OCRフリーソフト)をインストールするまでの流れ】
手順1:TesseractのUbuntu用リポジトリを追加
手順2:apt-getでTesseractをUbuntuにインストール
上記手順を実施することで、Tesseractをインストールできます。
上記の各手順は、以下の日時と環境で動作確認済みです。
動作確認済み日時:2022年11月5日
動作確認済み環境:Ubuntu 20.04.3 LTS
以降で、上記の各手順に関してご説明します。
TesseractのUbuntu用リポジトリを追加
まずは、TesseractのUbuntu用リポジトリを追加しましょう。
リポジトリを追加するために、add-apt-repositoryコマンドを実行します。
端末を起動し、以下のコマンドを実行してください。
$ sudo add-apt-repository ppa:alex-p/tesseract-ocr
・
・
・
Fetched 3,408 kB in 3s (1,020 kB/s)
Reading package lists... Done
$ sudo apt-get update
コマンド実行後、「Done」が表示された場合、「正常にTesseractのUbuntu用リポジトリを追加できた」と判断できます。
apt-getでTesseractをUbuntuにインストール
続いて、TesseractをUbuntuにインストールしましょう。
apt-getコマンド経由でTesseractをUbuntuにインストールします。
端末上で、以下のコマンドを実行してください。
$ sudo apt install tesseract-ocr
以上で、UbuntuにTesseractをインストールできました。
上記の流れで、Tesseract(OCRフリーソフト)をUbuntuにインストールできました。
以降で、Tesseractがインストールできたかを確認してみましょう。
UbuntuにTesseractがインストールできたかを確認する方法
「UbuntuにTesseractがインストールできたかを確認する方法」に関してご紹介します。
【Tesseractがインストールできたかを確認する方法】
・Tesseractのバージョンを確認するコマンドを実行
・TesseractのコマンドPATHを確認
上記でTesseractがインストールできたかを確認できます。
上記の各操作は、以下の日時と環境で動作確認済みです。
動作確認済み日時:2022年11月5日
動作確認済み環境:Ubuntu 20.04.3 LTS
以降で、上記の各項目に関してご説明します。
Tesseractのバージョンを確認するコマンドを実行
Tesseractのバージョンを確認するコマンド「tesseract -v」を実行することで、TesseractがUbuntuにインストールされたかを確認できます。
$ tesseract -v
tesseract 4.1.3
leptonica-1.79.0
libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 2.0.3) : libpng 1.6.37 : libtiff 4.1.0 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.3.1
Found AVX2
Found AVX
Found SSE
Found libarchive 3.4.0 zlib/1.2.11 liblzma/5.2.4 bz2lib/1.0.8 liblz4/1.9.2 libzstd/1.4.4
コマンド実行後、「tesseract <バージョン名>」が表示された場合、「正常にTesseractをUbuntuにインストールできた」と判断できます。
TesseractのコマンドPATHを確認
TesseractのコマンドPATHを確認「which」を実行することで、TesseractがUbuntuにインストールされたかを確認できます。
$ which tesseract
/usr/bin/tesseract
コマンド実行後、「/usr/bin/tesseract」が表示された場合、「正常にTesseractをUbuntuにインストールできた」と判断できます。
上記の2つの方法で、UbuntuにTesseractがインストールできたかを確認できました。
ちなみに、Tesseractの使い方を体系的に学びたい方には、以下の記事がオススメです。最短一週間でTesseractの基本的な使い方を無料で習得できます。
>> Tesseractの使い方【インストール→OCRの例→Python/Ruby】
【まとめ】Tesseract(OCRフリーソフト)のインストール手順【Ubuntu向け】
いかがでしたでしょうか?
上記で紹介した「apt-get」を使うことで、簡単に「TesseractをUbuntuにインストール」できます。
最後にもう一度内容を確認しましょう。
【まとめ】
・add-apt-repositoryでリポジトリを追加
・apt-getでUbuntuにTesseractをインストール
・tesseract -v コマンドでインストール済みかを確認可能
本ブログでは、Tesseractの使い方を体系的に学べる方法をご紹介しています。最短一週間でTesseractの基本的な使い方を無料で習得できます。
コメント