Menginstal Tesseract OCR di Linux

Tesseract OCR (Optical Character Recognition) adalah mesin dan program baris perintah sumber terbuka dan gratis untuk mengekstrak teks dari gambar menggunakan teknologi dan algoritma pengenalan karakter optik. Proyek ini didukung oleh Google dan hingga hari ini, ini dianggap sebagai mesin OCR open source terbaik yang tersedia. Itu dapat mendeteksi dan mengekstrak teks dalam berbagai bahasa dengan akurasi tinggi.

Menginstal Tesseract OCR di Linux

Tesseract OCR tersedia secara default di sebagian besar distribusi Linux. Anda dapat menginstalnya di Ubuntu menggunakan perintah di bawah ini:

$ sudo apt install tesseract-ocr

Instruksi terperinci untuk distribusi lain tersedia sini. Meskipun Tesseract OCR tersedia di repositori banyak distribusi Linux secara default, disarankan untuk menginstal versi terbaru dari tautan yang disebutkan di atas untuk meningkatkan akurasi dan penguraian.

Menginstal Dukungan untuk Bahasa Tambahan di Tesseract OCR

Tesseract OCR mencakup dukungan untuk mendeteksi teks dalam lebih dari 100 bahasa. Namun, Anda hanya mendapatkan dukungan untuk mendeteksi teks dalam bahasa Inggris dengan instalasi default di Ubuntu. Untuk menambahkan dukungan untuk mem-parsing bahasa tambahan di Ubuntu, jalankan perintah dalam format berikut:

$ sudo apt install tesseract-ocr-hin

Perintah di atas akan menambahkan dukungan untuk bahasa Hindi ke Tesseract OCR. Terkadang Anda bisa mendapatkan akurasi dan hasil yang lebih baik dengan menginstal dukungan untuk skrip bahasa. Misalnya, menginstal dan menggunakan paket tesseract untuk skrip Devanagari "tesseract-ocr-script-deva" memberi saya hasil yang jauh lebih akurat daripada menggunakan paket "tesseract-ocr-hin".

Di Ubuntu, Anda dapat menemukan nama paket yang benar untuk semua bahasa dan skrip dengan menjalankan perintah di bawah ini:

$ tesseract pencarian apt-cache-

Setelah Anda mengidentifikasi nama paket yang benar untuk diinstal, ganti string "tesseract-ocr-hin" dengannya pada perintah pertama yang ditentukan di atas.

Menggunakan Tesseract OCR untuk Mengekstrak Teks dari Gambar

Mari kita ambil contoh gambar yang ditunjukkan di bawah ini (diambil dari halaman Wikipedia untuk Linux):

Untuk mengekstrak teks dari gambar di atas, Anda harus menjalankan perintah dalam format berikut:

$ tangkapan tesseract.png keluaran -l eng

Menjalankan perintah di atas memberikan output berikut:

Pada perintah di atas, "tangkap".png” mengacu pada gambar yang ingin Anda ekstrak teksnya. Output yang ditangkap kemudian disimpan dalam "output".file .txt”. Anda dapat mengubah bahasa dengan mengganti argumen "eng" dengan pilihan Anda sendiri. Untuk melihat semua bahasa yang valid, jalankan perintah di bawah ini:

$ tesseract --list-langs

Ini akan menampilkan kode singkatan untuk semua bahasa yang didukung oleh Tesseract OCR di sistem Anda. Secara default, itu hanya akan menampilkan "eng" sebagai output. Namun, jika Anda menginstal paket untuk bahasa tambahan seperti yang dijelaskan di atas, perintah ini akan mencantumkan lebih banyak bahasa yang dapat Anda gunakan untuk mendeteksi teks (sebagai kode bahasa 3 huruf ISO 639).

Jika gambar berisi teks dalam beberapa bahasa, tentukan bahasa utama terlebih dahulu diikuti dengan bahasa tambahan yang dipisahkan dengan tanda plus.

$ pengambilan tesseract.png keluaran -l eng+fra

Jika Anda ingin menyimpan output sebagai file PDF yang dapat dicari, jalankan perintah dalam format berikut:

$ tangkapan tesseract.png keluaran -l eng pdf

Perhatikan bahwa file PDF yang dapat dicari tidak akan berisi teks yang dapat diedit. Ini termasuk gambar asli, dengan lapisan tambahan yang berisi teks yang dikenali ditumpangkan pada gambar. Jadi, meskipun Anda dapat secara akurat mencari teks dalam file PDF menggunakan pembaca PDF apa pun, Anda tidak akan dapat mengedit teks.

Poin lain yang harus Anda perhatikan bahwa akurasi deteksi teks meningkat pesat jika file gambar berkualitas tinggi. Diberi pilihan, selalu gunakan format file lossless atau file PNG. Menggunakan file JPG mungkin tidak memberikan hasil terbaik.

Mengekstrak Teks dari File PDF Multi-halaman

Tesseract OCR secara asli tidak mendukung ekstraksi teks dari file PDF. Namun, dimungkinkan untuk mengekstrak teks dari file PDF multi-halaman dengan mengonversi setiap halaman menjadi file gambar. Jalankan perintah di bawah ini untuk mengonversi file PDF menjadi sekumpulan gambar:

$pdftoppm -file png.keluaran pdf

Untuk setiap halaman file PDF, Anda akan mendapatkan "output-1" yang sesuai.png”, “keluaran-2.png”, dan seterusnya.

Sekarang, untuk mengekstrak teks dari gambar-gambar ini dengan menggunakan satu perintah, Anda harus menggunakan "for loop" dalam perintah bash:

$ untuk saya di *.png; lakukan tesseract "$i" "output-$i" -l eng; selesai;

Menjalankan perintah di atas akan mengekstrak teks dari semua ".png” yang ditemukan di direktori kerja dan simpan teks yang dikenali di “output-original_filename.file .txt”. Anda dapat memodifikasi bagian tengah dari perintah sesuai kebutuhan Anda.

Jika Anda ingin menggabungkan semua file teks yang berisi teks yang dikenali, jalankan perintah di bawah ini:

$ kucing *.txt > bergabung.txt

Proses mengekstrak teks dari file PDF multi-halaman menjadi file PDF yang dapat dicari hampir sama. Anda harus memberikan argumen "pdf" tambahan ke perintah:

$ untuk saya di *.png; lakukan tesseract "$i" "output-$i" -l eng pdf; selesai;

Jika Anda ingin menggabungkan semua file PDF yang dapat dicari yang berisi teks yang dikenali, jalankan perintah di bawah ini:

$pdfunite*.pdf bergabung.pdf

Baik "pdftoppm" dan "pdfunite" diinstal secara default pada versi stabil terbaru Ubuntu.

Keuntungan dan Kerugian Mengekstrak Teks di TXT dan File PDF yang Dapat Dicari

Jika Anda mengekstrak teks yang dikenali ke file TXT, Anda akan mendapatkan output teks yang dapat diedit. Namun, semua pemformatan dokumen akan hilang (tebal, miring, dan sebagainya). File PDF yang dapat dicari akan mempertahankan format aslinya, tetapi Anda akan kehilangan kemampuan mengedit teks (Anda masih dapat menyalin teks mentah). Jika Anda membuka file PDF yang dapat dicari di editor PDF apa pun, Anda akan mendapatkan gambar yang disematkan dalam file dan bukan output teks mentah. Mengonversi file PDF yang dapat dicari menjadi HTML atau EPUB juga akan memberi Anda gambar yang disematkan.

Kesimpulan

Tesseract OCR adalah salah satu mesin OCR yang paling banyak digunakan saat ini. Ini gratis, sumber terbuka dan mendukung lebih dari seratus bahasa. Saat menggunakan Tesseract OCR, pastikan untuk menggunakan gambar resolusi tinggi dan kode bahasa yang benar dalam argumen baris perintah untuk meningkatkan akurasi deteksi teks.