Menginstal Apache Spark di Ubuntu 17.10

Apache Spark adalah alat analisis data yang dapat digunakan untuk memproses data dari HDFS, S3 atau sumber data lain di memori. Dalam posting ini, kami akan menginstal Apache Spark di Ubuntu 17.10 mesin.

Versi Ubuntu

Untuk panduan ini, kami akan menggunakan Ubuntu versi 17.10 (GNU/Linux 4.13.0-38-generik x86_64).

Apache Spark adalah bagian dari ekosistem Hadoop untuk Big Data. Coba Instal Apache Hadoop dan buat contoh aplikasi dengannya.

Memperbarui paket yang ada

Untuk memulai penginstalan Spark, kami perlu memperbarui mesin kami dengan paket perangkat lunak terbaru yang tersedia. Kita dapat melakukannya dengan:

sudo apt-get update && sudo apt-get -y dist-upgrade

Karena Spark berbasis Java, kami perlu menginstalnya di mesin kami. Kami dapat menggunakan versi Java apa pun di atas Java 6. Di sini, kita akan menggunakan Java 8:

sudo apt-get -y install openjdk-8-jdk-headless

Mengunduh file Spark

Semua paket yang diperlukan sekarang ada di mesin kami. Kami siap mengunduh file Spark TAR yang diperlukan sehingga kami dapat mulai menyiapkannya dan menjalankan program sampel dengan Spark juga.

Dalam panduan ini, kami akan menginstal Percikan v2.3.0 Tersedia disini:

Halaman unduhan percikan

Unduh file yang sesuai dengan perintah ini:

wget http://www-us.apache.org/dist/spark/spark-2.3.0/spark-2.3.0-bin-hadoop2.7.tgz

Bergantung pada kecepatan jaringan, ini bisa memakan waktu hingga beberapa menit karena file berukuran besar:

Mengunduh Apache Spark

Sekarang kita memiliki file TAR yang diunduh, kita dapat mengekstraknya di direktori saat ini:

tar xvzf percikan-2.3.0-bin-hadoop2.7.tgz

Ini akan memakan waktu beberapa detik untuk diselesaikan karena ukuran file arsip yang besar:

File yang tidak diarsipkan di Spark

Ketika datang untuk memutakhirkan Apache Spark di masa depan, itu dapat menimbulkan masalah karena pembaruan Path. Masalah ini dapat dihindari dengan membuat tautan lunak ke Spark. Jalankan perintah ini untuk membuat softlink:

ln -s percikan-2.3.0-bin-hadoop2.7 percikan

Menambahkan Spark ke Path

Untuk menjalankan skrip Spark, kami akan menambahkannya ke jalur sekarang. Untuk melakukan ini, buka file bashrc:

vi ~/.bashrc

Tambahkan baris ini ke akhir ..bashrc file sehingga jalur dapat berisi jalur file yang dapat dieksekusi Spark:

SPARK_HOME=/LinuxHint/spark
ekspor PATH=$SPARK_HOME/bin:$PATH

Sekarang, file tersebut terlihat seperti:

Menambahkan Spark ke PATH

Untuk mengaktifkan perubahan ini, jalankan perintah berikut untuk file bashrc:

sumber ~/.bashrc

Meluncurkan Spark Shell

Sekarang ketika kita berada tepat di luar direktori spark, jalankan perintah berikut untuk membuka shell apark:

./spark/bin/spark-shell

Kita akan melihat bahwa Spark shell terbuka sekarang:

Meluncurkan Spark shell

Kita dapat melihat di konsol bahwa Spark juga telah membuka Konsol Web pada port 404. Mari kita kunjungi:

Konsol Web Apache Spark

Meskipun kami akan beroperasi di konsol itu sendiri, lingkungan web adalah tempat penting untuk dilihat saat Anda menjalankan Spark Job yang berat sehingga Anda tahu apa yang terjadi di setiap Spark Job yang Anda jalankan.

Periksa versi Spark Shell dengan perintah sederhana:

sc.Versi: kapan

Kami akan mendapatkan kembali sesuatu seperti:

res0: String = 2.3.0

Membuat Contoh Aplikasi Spark dengan Scala

Sekarang, kita akan membuat contoh aplikasi Word Counter dengan Apache Spark. Untuk melakukan ini, pertama-tama muat file teks ke dalam Spark Context pada Spark shell:

scala> var Data = sc.textFile("/root/LinuxHint/spark/README.md")
Data: org.apache.percikan.rdd.RDD[String] = /root/LinuxHint/spark/README.md MapPartitionsRDD[1] di textFile at :24
skala>

Sekarang, teks yang ada dalam file harus dipecah menjadi token yang dapat dikelola Spark:

scala> var token = Data.flatMap(s => s.membagi (" "))
token: org.apache.percikan.rdd.RDD[String] = MapPartitionsRDD[2] di flatMap di :25
skala>

Sekarang, inisialisasi hitungan untuk setiap kata menjadi 1:

scala> var token_1 = token token.peta(s => (s,1))
token_1: org.apache.percikan.rdd.RDD[(String, Int)] = MapPartitionsRDD[3] pada peta pada :25
skala>

Akhirnya, hitung frekuensi setiap kata dari file:

var sum_each = token_1.mengurangiByKey((a, b) => a + b)

Saatnya melihat output untuk program. Kumpulkan token dan jumlah masing-masing:

skala> jumlah_setiap_.mengumpulkan()
res1: Array[(String, Int)] = Array((paket,1), (Untuk,3), (Program,1), (memproses.,1), (Karena,1), (The,1), (halaman](http://spark.apache.org/dokumentasi.html).,1), (kelompok.,1), (its,1), ([run,1), (dari,1), (APIs,1), (memiliki,1), (Coba,1), (komputasi,1), (melalui,1 ), (beberapa,1), (Ini,2), (grafik,1), (Sarang,2), (penyimpanan,1), (["Menentukan,1), (Ke,2), ("benang" ,1), (Sekali,1), (["Berguna,1), (lebih disukai,1), (SparkPi,2), (mesin,1), (versi,1), (file,1), (dokumentasi ,,1), (memproses,,1), (the,24), (adalah,1), (sistem.,1), (params,1), (bukan,1), (berbeda,1), (rujuk,2), (Interaktif,2), (R,,1), (diberikan.,1), (jika,4), (membangun,4), (kapan,1), (menjadi,2), (Tes,1), (Apache,1), (utas,1), (program,,1 ), (termasuk,4), (./bin/run-example,2), (Spark.,1), (paket.,1), (1000).count(),1), (Versi,1), (HDFS,1), (D…
skala>

Luar biasa! Kami dapat menjalankan contoh Penghitung Kata sederhana menggunakan bahasa pemrograman Scala dengan file teks yang sudah ada di sistem.

Kesimpulan

Dalam pelajaran ini, kita melihat bagaimana kita dapat menginstal dan mulai menggunakan Apache Spark di Ubuntu 17.10 mesin dan jalankan aplikasi sampel di atasnya juga.

Baca lebih banyak posting berbasis Ubuntu di sini.