LinuxHint sudah menerbitkan tutorial yang menjelaskan cara menginstal dan memahami pelatihan Tesseract.
Tutorial ini menunjukkan proses instalasi Tesseract di sistem Debian/Ubuntu tetapi tidak akan diperluas pada fungsionalitas pelatihan, jika Anda tidak terbiasa dengan perangkat lunak ini, membaca artikel yang disebutkan mungkin merupakan pengantar yang bagus. Kemudian kami akan menunjukkan cara memproses gambar GIF dengan Tesseract untuk mengeluarkan teksnya text.
Instalasi Tesseract:
Lari:
apt install tesseract-ocr
Sekarang Anda perlu menginstal imagemagick yang merupakan konverter gambar.
Setelah terinstal, kami sudah dapat menguji Tesseract, untuk mengujinya saya menemukan gif berlisensi untuk digunakan kembali.
Sekarang mari kita lihat apa yang terjadi ketika kita menjalankan tesseract pada gambar gif:
tesseract 2002NY40.gif 1hasil
Sekarang lakukan "kurang" pada 1hasil.txt
kurang 1hasil.txt
Berikut adalah gambar dengan teksnya:
Dalam pengaturan default Tesseract ini cukup akurat, biasanya untuk mendapatkan akurasi seperti itu diperlukan pelatihan. Mari kita coba gambar gratis lain yang saya temukan di Wiki Commons, setelah mengunduhnya jalankan:
tesseract Actualizar_GNULinux_Terminal_apt-get.gif 2hasil
Sekarang periksa konten file.
kurang 2hasil.txt
Itu adalah hasil sementara konten gambar aslinya adalah:
Untuk meningkatkan pengenalan karakter, kami memiliki banyak opsi dan langkah untuk diikuti yang telah dirinci dalam tutorial kami sebelumnya: penghapusan batas, penghapusan noise, pengoptimalan ukuran, dan rotasi halaman di antara fungsi-fungsi lain seperti crop.
Untuk tutorial ini kita akan menggunakan textcleaner, skrip yang dikembangkan oleh Fred's ImageMagick Scripts.
Unduh skrip dan jalankan:
./textcleaner -g -e stretch -f 25 -o 10 -s 1Actualizar_GNULinux_Terminal_apt-get.tes gif.gif
Catatan: sebelum menjalankan skrip berikan izin eksekusi dengan menjalankan “chmod +x pembersih teks” sebagai root atau dengan sudo awalan.
Dimana:
pembersih teks: memanggil program
-g: Ubah gambar menjadi skala abu-abu
-e: enache
-f: ukuran filter
-s: sharpamt,jumlah penajaman piksel yang akan diterapkan pada hasil.
Untuk informasi dan contoh penggunaan dengan textcleaner kunjungi http://www.konsep fmw.com/imagemagick/textcleaner/index.php
Saat Anda melihat pembersih teks mengubah warna latar belakang, meningkatkan kontras antara font dan latar belakang.
Jika kita menjalankan tesseract mungkin hasilnya akan berbeda:
tes tesseract.hasil tes gifhasil tes lebih sedikit
Seperti yang Anda lihat, hasilnya benar-benar meningkat meskipun tidak sepenuhnya akurat.
Perintah mengubah disediakan oleh imagemagick memungkinkan kita untuk mengekstrak bingkai dari gambar gif untuk diproses nanti oleh Tesseract, ini berguna jika ada konten yang dapat diekstraksi dalam bingkai yang berbeda dari gambar gif.
Sintaksnya sederhana:
mengubahHasilnya akan dihasilkan sebagai jumlah file sebagai bingkai di gif, dalam contoh yang diberikan hasilnya adalah: keluaran-0.jpg, keluaran-1.jpg, keluaran-2.jpg, dll.
Kemudian Anda dapat memprosesnya dengan tesseract, menginstruksikannya untuk memproses semua file dengan wildcard yang menyimpan hasilnya dalam satu file dengan menjalankan:
untuk saya di output-* ; lakukan tesseract $i outputresult; selesai;Imagemagick memiliki berbagai macam opsi untuk mengoptimalkan gambar dan tidak ada mode umum, untuk setiap jenis skenario Anda harus membaca halaman manual perintah convert.
Saya harap Anda menemukan tutorial di Tesseract ini bermanfaat.