Instal Apache Hadoop di Ubuntu 17.10!

Apache Hadoop adalah solusi data besar untuk menyimpan dan menganalisis data dalam jumlah besar. Dalam artikel ini kami akan merinci langkah-langkah penyiapan yang rumit untuk Apache Hadoop agar Anda dapat memulainya di Ubuntu secepat mungkin. Dalam posting ini, kita akan menginstal Apache Hadoop di Ubuntu 17.10 mesin.

Versi Ubuntu

Untuk panduan ini, kami akan menggunakan Ubuntu versi 17.10 (GNU/Linux 4.13.0-38-generik x86_64).

Memperbarui paket yang ada

Untuk memulai instalasi Hadoop, kami perlu memperbarui mesin kami dengan paket perangkat lunak terbaru yang tersedia. Kita dapat melakukannya dengan:

sudo apt-get update && sudo apt-get -y dist-upgrade

Karena Hadoop berbasis Java, kami perlu menginstalnya di mesin kami. Kami dapat menggunakan versi Java apa pun di atas Java 6. Di sini, kita akan menggunakan Java 8:

sudo apt-get -y install openjdk-8-jdk-headless

Mengunduh file Hadoop

Semua paket yang diperlukan sekarang ada di mesin kami. Kami siap mengunduh file TAR Hadoop yang diperlukan sehingga kami dapat mulai mengaturnya dan menjalankan program sampel dengan Hadoop juga.

Dalam panduan ini, kami akan menginstal Hadoop v3.0.1. Unduh file yang sesuai dengan perintah ini:

wget http://mirror.cc.Kolumbia.edu/pub/perangkat lunak/apache/hadoop/umum/hadoop-3.0.1/hadoop-3.0.1.ter.gz

Bergantung pada kecepatan jaringan, ini bisa memakan waktu hingga beberapa menit karena file berukuran besar:

Mengunduh Hadoop

Temukan binari Hadoop terbaru di sini. Sekarang kita memiliki file TAR yang diunduh, kita dapat mengekstraknya di direktori saat ini:

tar xvzf hadoop-3.0.1.ter.gz

Ini akan memakan waktu beberapa detik untuk diselesaikan karena ukuran file arsip yang besar:

Hadoop Tidak Diarsipkan

Menambahkan Grup Pengguna Hadoop baru

Karena Hadoop beroperasi melalui HDFS, sistem file baru juga dapat mengganggu sistem file kita sendiri di mesin Ubuntu. Untuk menghindari tabrakan ini, kami akan membuat Grup Pengguna yang sepenuhnya terpisah dan menetapkannya ke Hadoop sehingga memiliki izinnya sendiri. Kita dapat menambahkan grup pengguna baru dengan perintah ini:

addgroup hadoop

Kita akan melihat sesuatu seperti:

Menambahkan grup pengguna Hadoop

Kami siap menambahkan pengguna baru ke grup ini:

useradd -G hadoop hadoopuser

Harap perhatikan bahwa semua perintah yang kami jalankan adalah sebagai pengguna root itu sendiri. Dengan perintah di atas, kami dapat menambahkan pengguna baru ke grup yang kami buat.

Untuk mengizinkan pengguna Hadoop melakukan operasi, kami juga perlu menyediakannya dengan akses root. Buka /etc/sudoers file dengan perintah ini:

sudo visudo

Sebelum kita menambahkan apapun, file tersebut akan terlihat seperti:

File Sudoers sebelum menambahkan apa pun

Tambahkan baris berikut ke akhir file:

hadoopuser ALL=(ALL) ALL

Sekarang file akan terlihat seperti:

File Sudoers setelah menambahkan pengguna Hadoop

Ini adalah pengaturan utama untuk menyediakan platform Hadoop untuk melakukan tindakan. Kami siap untuk menyiapkan satu node Hadoop cluster sekarang.

Pengaturan Node Tunggal Hadoop: Mode Mandiri

Ketika datang ke kekuatan nyata Hadoop, biasanya diatur di beberapa server sehingga dapat menskala di atas sejumlah besar dataset yang ada di Sistem File Terdistribusi Hadoop (HDFS). Ini biasanya baik-baik saja dengan lingkungan debugging dan tidak digunakan untuk penggunaan produksi. Agar prosesnya tetap sederhana, kami akan menjelaskan bagaimana kami dapat melakukan penyiapan node tunggal untuk Hadoop di sini.

Setelah kami selesai menginstal Hadoop, kami juga akan menjalankan contoh aplikasi di Hadoop. Sampai sekarang, file Hadoop dinamai sebagai hadoop-3.0.1. mari kita ganti namanya menjadi hadoop untuk penggunaan yang lebih sederhana:

mv hadoop-3.0.1 hadoop

File sekarang terlihat seperti:

Memindahkan Hadoop

Saatnya memanfaatkan pengguna hadoop yang kita buat sebelumnya dan menetapkan kepemilikan file ini kepada pengguna itu:

chown -R hadoopuser:hadoop /root/hadoop

Lokasi yang lebih baik untuk Hadoop adalah direktori /usr/local/, jadi mari kita pindahkan ke sana:

mv hadoop /usr/local/
cd /usr/lokal/

Menambahkan Hadoop ke Path

Untuk menjalankan skrip Hadoop, kami akan menambahkannya ke jalur sekarang. Untuk melakukan ini, buka file bashrc:

vi ~/.bashrc

Tambahkan baris ini ke akhir ..bashrc file sehingga path dapat berisi path file yang dapat dieksekusi Hadoop:

# Konfigurasi Hadoop dan Java Home
ekspor HADOOP_HOME=/usr/local/hadoop
ekspor Java_HOME=/usr/lib/jvm/Java-8-openjdk-amd64
ekspor PATH=$PATH:$HADOOP_HOME/bin

File terlihat seperti:

Menambahkan Hadoop ke Path

Karena Hadoop menggunakan Java, kita perlu memberi tahu file lingkungan Hadoop hadoop-env.SH Dimana lokasi nya. Lokasi file ini dapat bervariasi berdasarkan versi Hadoop. Untuk dengan mudah menemukan di mana file ini berada, jalankan perintah berikut tepat di luar direktori Hadoop:

temukan hadoop/ -nama hadoop-env.SH

Kami akan mendapatkan output untuk lokasi file:

Lokasi file lingkungan

Mari edit file ini untuk memberi tahu Hadoop tentang lokasi Java JDK dan masukkan ini di baris terakhir file dan simpan:

ekspor Java_HOME=/usr/lib/jvm/Java-8-openjdk-AMD64

Instalasi dan pengaturan Hadoop sekarang selesai. Kami siap menjalankan aplikasi sampel kami sekarang. Tapi tunggu, kami tidak pernah membuat aplikasi sampel!

Menjalankan aplikasi Sampel dengan Hadoop

Sebenarnya, instalasi Hadoop dilengkapi dengan aplikasi sampel bawaan yang siap dijalankan setelah kita selesai menginstal Hadoop. Kedengarannya bagus, kan??

Jalankan perintah berikut untuk menjalankan contoh JAR:

hadoop jar /root/hadoop/share/hadoop/mapreduce/hadoop-mareduce-examples-3.0.1.jar jumlah kata /root/hadoop/README.txt /root/Output

Hadoop akan menunjukkan berapa banyak pemrosesan yang dilakukan di node:

Statistik pemrosesan Hadoop

Setelah Anda menjalankan perintah berikut, kami melihat file part-r-00000 sebagai output. Silakan dan lihat konten outputnya:

kucing bagian-r-00000

Anda akan mendapatkan sesuatu seperti:

Keluaran Jumlah Kata oleh Hadoop

Kesimpulan

Dalam pelajaran ini, kita melihat bagaimana kita dapat menginstal dan mulai menggunakan Apache Hadoop di Ubuntu 17.10 mesin. Hadoop sangat bagus untuk menyimpan dan menganalisis sejumlah besar data dan saya harap artikel ini akan membantu Anda mulai menggunakannya di Ubuntu dengan cepat.