★悩み★
・Tesseractとは何?何ができるの?使い方は?
・Tesseractの特徴やどういった場面で使われるのかを知りたい。
・今からTesseractを使いたいから、「すぐ実践できる使い方」を知りたい。
こういった「悩み」に答えます。
★本記事の内容★
① Tesseractとは?
② Tesseractの特徴(メリットとデメリット)
➂ Tesseractを使った事例3選
④ Tesseractの使い方(インストールから文字認識までを解説)
本記事を熟読したことで、1時間以内で「Tesseractとは?の理解からインストールまで」をできるようになりました。
記事の前半では「Tesseractで何ができるか」や「動作環境とメリット/デメリット」を解説します。
記事の後半では「利用事例」から「インストール方法/文字認識方法」までを紹介します。
この記事を読み終えることで、「Tesseractを使う上で最低限必要な知識や操作手順を把握した」状態になります。
Tesseractとは?
「Tesseractとは?」に関してご紹介します。
★ご紹介事項★
・OCRとは?
・Tesseractとは何か?できることは?
・動作環境
・料金プランとライセンス
・コミュニティ(開発元)/開発の状況
以降で、上記「ご紹介事項」の各項目に関してご説明します。
OCRとは?
「OCRとは?」に関して説明します。
「Tesseractとは?」を理解するためにも、まずは「OCRとは?」を理解する必要があります。
「OCRとは?」に関しては、以下の記事「OCRとは?【画像内のテキストを読み取る技術です】」の箇所をご覧ください。
>> 【最短5分】PythonとOCRでPDFや画像から文字認識をする方法
Tesseractとは何か?できることは?
「Tesseractとは何か?できることは?」に関して解説します。
「どういったツールなのか?」や「できることは?」に関して簡単に紐解いていきますね。
公式サイトでは、以下のように説明されています。
少し難しい英語で「Tesseractとは何か?」を説明されています。
以下に簡単な文言に置き換えたものを記載しますね。
★Tesseractとは?★
Tesseractは、Google社が開発しているオープンソースの光学式文字認識ソフトウェアです。本ソフトウェアで「無料で画像内の文字認識」ができます。
例えば、「jpgファイル内に記載された日本語」を文字認識できます(下の動画参照)。
ちなみに、「Tesseract」は、一般的に以下のように呼称されています。
★呼び方/読み方★
以下のどちらかで呼ぶパターンが多いです。
・テッセラクト
・テサラクト
動作環境
「動作環境」に関して解説します。
「どのOS」で使うことができるかをご紹介しますね。
動作環境は、以下となります。
★動作環境★
・Windows
・Mac
・Linux(Ubuntu含む)
・Android
参照:対応プラットフォーム一覧(公式サイト)
ちなみに、筆者は、「Windows」「Mac」「CentOS」で使ったことがあります。
本記事の後半で、「Windows」「Mac」「Linux」にTesseractをインストールする方法を説明します。
料金プランとライセンス
「料金プランとライセンス」に関して説明します。
「そもそも無料で利用できる?」の疑問を解消していきますね。
料金プランは、以下となります。
★料金プラン★
Tesseractは、完全無料で「ダウンロード」「インストール」「OCRによる画像からの文字認識」ができます。
完全無料となっている理由としては、以下のライセンスで開発されたOSS(オープンソース)であるためです。
★ライセンス★
Tesseractは、「Apache License 2.0(2022年8月15日時点)」というライセンスで開発されています。
上記ライセンスであるため、「個人利用」「商用利用」であっても完全無料で使えます。
参照:ライセンスについて
コミュニティ(開発元)/開発の状況
「コミュニティ(開発元)/開発の状況」に関して解説します。
個人や業務で使う場合、脆弱性などのバグが「どのぐらいの頻度で修正されるか」気になりますよね。以降で簡単に解説します。
コミュニティ(機能開発やバグ修正している団体)の活動状況は、以下のサイトで確認できます。
>> コミュニティのサイト
上記のサイトから、「開発状況」や「修正頻度」を把握できます(下図参照)。
開発状況を見てみると「2014年から継続的に開発されている/1週間に1回ぐらい何かしらの開発」を実施しているように見えます。
また、開発が継続して行われているため、脆弱性などがあった場合は比較的はやく修正されるソフトウェアだとも考えられます。
個人的には、「バグなどが少なさそう」や「定期的に開発はされている」という観点から、個人や業務で使っても「問題ない」と考えています。
Tesseractとは、完全無料で画像内に描かれた文字を認識できるソフトウェアです。
以降で、メリットとデメリットに関してご紹介しますね。
Tesseractの特徴(メリットとデメリット)
今までご紹介した内容を踏まえて、Tesseractのメリットとデメリットをご紹介しますね。
実際に使ってみて、「3つのメリット」「2つのデメリット」があると感じました。
早速ですが、メリットは、以下だと考えます。
★メリット★
① 完全無料で画像から文字認識ができる
ライセンスが「Apache License 2.0」であるためです。
➁ マルチプラットフォームに対応
Windows/Mac/Linux/Androidの環境で利用できます。
➂ ネットワーク環境がないオフライン環境でも利用できる
ネットワーク通信なしで利用できます。
また、デメリットは、以下となります。
★デメリット★
① 精度が低い
GoogleやAmazonのOCR機能ほど精度が良くないです。
➁ 使用用途に特化させたモデル作成が難しい
使用用途で高精度な文字認識を実現するには自前でモデル作成が必要。
モデル作成には、大量のデータ/潤沢なCPUとメモリ/時間が必要です。
参照:モデルの作成手順(公式サイト)
メリットとデメリットをしっかり把握することで、適切な場所でTesseractを使うことができます。
続いて、よく利用するユースケースをご紹介しますね。
Tesseractを使った事例3選
「Tesseractを使った事例3選」に関してご紹介します。
★ご紹介事項★
・文字認識を活用したWEBアプリケーション
・文字認識を活用したAndroidアプリケーション
・OCR機能で文書画像の全文検索
以降で、上記「ご紹介事項」の各項目に関してご説明します。
文字認識を活用したWEBアプリケーション
「文字認識を活用したWEBアプリケーション」に関してご紹介します。
文字認識を活用したWEBアプリケーションを無料で作りたいっという場面で使われます。
筆者は、Tesseractを使って、以下の「レシートの画像をアップロードし各月の請求額を管理する」WEBアプリケーションを作りました(下図参照)。
ちなみに、上記WEBアプリケーションのアーキテクチャは、以下となります。
文字認識を活用したAndroidアプリケーション
「文字認識を活用したAndroidアプリケーション」に関してご紹介します。
文字認識を活用したAndroidアプリケーションを無料で作りたいっという場面で使われます。
Android端末内でTesseractを使うことができるため、以下のような「文字認識を使ったAndroidアプリ」を開発できます(下図参照)。
OCR機能で文書画像の全文検索
「OCR機能で文書画像の全文検索」に関してご紹介します。
保存した文書画像に対して全文検索ができるシステムを作ることができます。
全文検索システム(例えばFess)にTesseractを組み込むことで、「画像ファイル」に対しても全文検索できるようになります(下図参照)。
ちなみに、「Fessとは何か?」に関して知りたい方には、以下の記事がオススメです。
>> 【入門編】Fessとは?全文検索システムを5分で作れるOSS!
Tesseractを使うことで、「画像ファイル内に記載された文字情報を抽出」を自動化できます。以降で、インストール方法から説明しますね。
Tesseractの使い方(インストールから文字認識までを解説)
「Tesseractの使い方(インストールから文字認識までを解説)」に関してご紹介します。
★使い方(ダウンロードから文字認識まで)★
手順1:ダウンロードとインストール
手順2:画像内の英数字を文字認識する方法
手順3:画像内の日本語をOCRする方法
以降で、上記の各手順に関してご説明します。
手順1:ダウンロードとインストール
「手順1:ダウンロードとインストール」に関して説明します。
CUIまたはGUI経由でインストールが必要です。
Windowsにインストールしたい方は、以下の記事をご覧ください。
>> Windowsにインストールする手順
Macにインストールしたい方は、以下の記事をご覧ください。
>> Macにインストールする手順
Linuxにインストールしたい方は、以下の記事をご覧ください。
>> Linuxにインストールする手順
以上が、「手順1:ダウンロードとインストール」となります。
手順2:画像内の英数字を文字認識する方法
「手順2:画像内の英数字を文字認識する方法」に関して説明します。
画像内にある英数字を文字認識してみましょう。
画像内の英数字を文字認識する手順に関しては、以下の記事をご覧ください。
>> 【コピペOK】英数字を文字認識(OCR)する手順
以上が、「手順2:画像内の英数字を文字認識する方法」となります。
手順3:画像内の日本語をOCRする方法
「手順3:画像内の日本語をOCRする方法」に関して説明します。
画像内にある日本語を文字認識してみましょう。
画像内の日本語を文字認識する手順に関しては、以下の記事をご覧ください。
>> 【コピペOK】日本語を文字認識(OCR)する手順
以上が、「手順3:画像内の日本語をOCRする方法」となります。
実際に触ってみたことで、「Tesseractの使い方って要点を抑えれば簡単では?」と思いませんでしたか?
是非、その感覚を忘れずに開発現場や個人開発で活用してみてください。
【まとめ】Tesseractとはを解消!初心者向けに特徴から使い方を図解
いかがでしたでしょうか?
上記で紹介した「Tesseractとは?」「メリットとデメリット」を理解していただくと、操作や使い方で悩むことは一切なくなり、Tesseractを適切な場面で利用できます。
最後にもう一度内容を確認しましょう。
★Tesseractとは?のおさらい★
・「無料」で画像内の英数字や日本語などを文字認識できる
・WindowsやMacなどのマルチプラットフォームで使える
・精度に関しては若干悪い
さらに体系的に学習したい方は、以下の記事をご覧ください。
>> Tesseractの使い方【インストール→OCRの例→Python/Ruby】
コメント