Apache Hadoop adalah solusi data besar untuk menyimpan dan menganalisis data dalam jumlah besar. Dalam artikel ini kami akan merinci langkah-langkah penyiapan yang rumit untuk Apache Hadoop agar Anda dapat memulainya di Ubuntu secepat mungkin. Dalam posting ini, kita akan menginstal Apache Hadoop di Ubuntu 17.10 mesin.
Versi Ubuntu
Untuk panduan ini, kami akan menggunakan Ubuntu versi 17.10 (GNU/Linux 4.13.0-38-generik x86_64).
Memperbarui paket yang ada
Untuk memulai instalasi Hadoop, kami perlu memperbarui mesin kami dengan paket perangkat lunak terbaru yang tersedia. Kita dapat melakukannya dengan:
sudo apt-get update && sudo apt-get -y dist-upgradeKarena Hadoop berbasis Java, kami perlu menginstalnya di mesin kami. Kami dapat menggunakan versi Java apa pun di atas Java 6. Di sini, kita akan menggunakan Java 8:
sudo apt-get -y install openjdk-8-jdk-headlessMengunduh file Hadoop
Semua paket yang diperlukan sekarang ada di mesin kami. Kami siap mengunduh file TAR Hadoop yang diperlukan sehingga kami dapat mulai mengaturnya dan menjalankan program sampel dengan Hadoop juga.
Dalam panduan ini, kami akan menginstal Hadoop v3.0.1. Unduh file yang sesuai dengan perintah ini:
wget http://mirror.cc.Kolumbia.edu/pub/perangkat lunak/apache/hadoop/umum/hadoop-3.0.1/hadoop-3.0.1.ter.gzBergantung pada kecepatan jaringan, ini bisa memakan waktu hingga beberapa menit karena file berukuran besar:
Mengunduh Hadoop
Temukan binari Hadoop terbaru di sini. Sekarang kita memiliki file TAR yang diunduh, kita dapat mengekstraknya di direktori saat ini:
tar xvzf hadoop-3.0.1.ter.gzIni akan memakan waktu beberapa detik untuk diselesaikan karena ukuran file arsip yang besar:
Hadoop Tidak Diarsipkan
Menambahkan Grup Pengguna Hadoop baru
Karena Hadoop beroperasi melalui HDFS, sistem file baru juga dapat mengganggu sistem file kita sendiri di mesin Ubuntu. Untuk menghindari tabrakan ini, kami akan membuat Grup Pengguna yang sepenuhnya terpisah dan menetapkannya ke Hadoop sehingga memiliki izinnya sendiri. Kita dapat menambahkan grup pengguna baru dengan perintah ini:
addgroup hadoopKita akan melihat sesuatu seperti:
Menambahkan grup pengguna Hadoop
Kami siap menambahkan pengguna baru ke grup ini:
useradd -G hadoop hadoopuserHarap perhatikan bahwa semua perintah yang kami jalankan adalah sebagai pengguna root itu sendiri. Dengan perintah di atas, kami dapat menambahkan pengguna baru ke grup yang kami buat.
Untuk mengizinkan pengguna Hadoop melakukan operasi, kami juga perlu menyediakannya dengan akses root. Buka /etc/sudoers file dengan perintah ini:
sudo visudoSebelum kita menambahkan apapun, file tersebut akan terlihat seperti:
File Sudoers sebelum menambahkan apa pun
Tambahkan baris berikut ke akhir file:
hadoopuser ALL=(ALL) ALLSekarang file akan terlihat seperti:
File Sudoers setelah menambahkan pengguna Hadoop
Ini adalah pengaturan utama untuk menyediakan platform Hadoop untuk melakukan tindakan. Kami siap untuk menyiapkan satu node Hadoop cluster sekarang.
Pengaturan Node Tunggal Hadoop: Mode Mandiri
Ketika datang ke kekuatan nyata Hadoop, biasanya diatur di beberapa server sehingga dapat menskala di atas sejumlah besar dataset yang ada di Sistem File Terdistribusi Hadoop (HDFS). Ini biasanya baik-baik saja dengan lingkungan debugging dan tidak digunakan untuk penggunaan produksi. Agar prosesnya tetap sederhana, kami akan menjelaskan bagaimana kami dapat melakukan penyiapan node tunggal untuk Hadoop di sini.
Setelah kami selesai menginstal Hadoop, kami juga akan menjalankan contoh aplikasi di Hadoop. Sampai sekarang, file Hadoop dinamai sebagai hadoop-3.0.1. mari kita ganti namanya menjadi hadoop untuk penggunaan yang lebih sederhana:
mv hadoop-3.0.1 hadoopFile sekarang terlihat seperti:
Memindahkan Hadoop
Saatnya memanfaatkan pengguna hadoop yang kita buat sebelumnya dan menetapkan kepemilikan file ini kepada pengguna itu:
chown -R hadoopuser:hadoop /root/hadoopLokasi yang lebih baik untuk Hadoop adalah direktori /usr/local/, jadi mari kita pindahkan ke sana:
mv hadoop /usr/local/cd /usr/lokal/
Menambahkan Hadoop ke Path
Untuk menjalankan skrip Hadoop, kami akan menambahkannya ke jalur sekarang. Untuk melakukan ini, buka file bashrc:
vi ~/.bashrcTambahkan baris ini ke akhir ..bashrc file sehingga path dapat berisi path file yang dapat dieksekusi Hadoop:
# Konfigurasi Hadoop dan Java Homeekspor HADOOP_HOME=/usr/local/hadoop
ekspor Java_HOME=/usr/lib/jvm/Java-8-openjdk-amd64
ekspor PATH=$PATH:$HADOOP_HOME/bin
File terlihat seperti:
Menambahkan Hadoop ke Path
Karena Hadoop menggunakan Java, kita perlu memberi tahu file lingkungan Hadoop hadoop-env.SH Dimana lokasi nya. Lokasi file ini dapat bervariasi berdasarkan versi Hadoop. Untuk dengan mudah menemukan di mana file ini berada, jalankan perintah berikut tepat di luar direktori Hadoop:
temukan hadoop/ -nama hadoop-env.SHKami akan mendapatkan output untuk lokasi file:
Lokasi file lingkungan
Mari edit file ini untuk memberi tahu Hadoop tentang lokasi Java JDK dan masukkan ini di baris terakhir file dan simpan:
ekspor Java_HOME=/usr/lib/jvm/Java-8-openjdk-AMD64Instalasi dan pengaturan Hadoop sekarang selesai. Kami siap menjalankan aplikasi sampel kami sekarang. Tapi tunggu, kami tidak pernah membuat aplikasi sampel!
Menjalankan aplikasi Sampel dengan Hadoop
Sebenarnya, instalasi Hadoop dilengkapi dengan aplikasi sampel bawaan yang siap dijalankan setelah kita selesai menginstal Hadoop. Kedengarannya bagus, kan??
Jalankan perintah berikut untuk menjalankan contoh JAR:
hadoop jar /root/hadoop/share/hadoop/mapreduce/hadoop-mareduce-examples-3.0.1.jar jumlah kata /root/hadoop/README.txt /root/OutputHadoop akan menunjukkan berapa banyak pemrosesan yang dilakukan di node:
Statistik pemrosesan Hadoop
Setelah Anda menjalankan perintah berikut, kami melihat file part-r-00000 sebagai output. Silakan dan lihat konten outputnya:
kucing bagian-r-00000Anda akan mendapatkan sesuatu seperti:
Keluaran Jumlah Kata oleh Hadoop
Kesimpulan
Dalam pelajaran ini, kita melihat bagaimana kita dapat menginstal dan mulai menggunakan Apache Hadoop di Ubuntu 17.10 mesin. Hadoop sangat bagus untuk menyimpan dan menganalisis sejumlah besar data dan saya harap artikel ini akan membantu Anda mulai menggunakannya di Ubuntu dengan cepat.