panda

Tutorial Panda dengan Python

Tutorial Panda dengan Python
Dalam pelajaran tentang pustaka Python Pandas ini, kita akan melihat struktur data yang berbeda yang disediakan oleh paket Python ini untuk fungsionalitas pemrosesan data cepat yang efisien untuk data dinamis dan mengelola operasi kompleks pada data multidimensi. Dalam pelajaran ini, kita akan membahas:

Ini sepertinya banyak yang harus ditutupi. Mari kita mulai sekarang.

Apa itu paket Python Pandas??

Menurut beranda Pandas: pandas adalah open source, perpustakaan berlisensi BSD yang menyediakan struktur data berkinerja tinggi dan mudah digunakan serta alat analisis data untuk bahasa pemrograman Python.

Salah satu hal paling keren tentang Panda adalah ia membuat pembacaan data dari format data umum seperti CSV, SQL, dll. sangat mudah yang membuatnya sama-sama dapat digunakan dalam aplikasi tingkat produksi atau hanya beberapa aplikasi demo.

Instal Python Panda

Sekedar catatan sebelum memulai proses instalasi, kami menggunakan lingkungan virtual untuk pelajaran ini yang kami buat dengan perintah berikut:

python -m virtualenv panda
sumber pandas/bin/aktifkan

Setelah lingkungan virtual aktif, kita dapat menginstal perpustakaan pandas di dalam virtual env sehingga contoh yang kita buat selanjutnya dapat dieksekusi:

pip install panda panda

Atau, kita dapat menggunakan Conda untuk menginstal paket ini dengan perintah berikut:

conda install panda panda

Kami melihat sesuatu seperti ini ketika kami menjalankan perintah di atas:

Setelah penginstalan selesai dengan Conda, kami akan dapat menggunakan paket dalam skrip Python kami sebagai:

impor panda sebagai pd

Mari mulai menggunakan Panda di skrip kita sekarang.

Membaca file CSV dengan Pandas DataFrames

Membaca file CSV itu mudah dengan Pandas. Untuk demonstrasi, kami telah membuat file CSV kecil dengan konten berikut:

Nama, RollNo, Tanggal Masuk, Kontak Darurat
Shubham,1,20-05-2012,9988776655
Gagan,2,20-05-2009,8364517829
Oshima,3,20-05-2003,5454223344
Vyom,4,20-05-2009,1223344556
Ankur,5,20-05-1999,9988776655
Vinod,6,20-05-1999,9988776655
Vipin,7,20-05-2002,9988776655
Ronak,8,20-05-2007,1223344556
DJ,9,20-05-2014,9988776655
VJ,10,20-05-2015,9988776655

Simpan file ini di direktori yang sama dengan skrip Python. Setelah file ada, tambahkan cuplikan kode berikut dalam file Python:

impor panda sebagai pd
siswa = pd.read_csv("siswa.csv")
siswa.kepala()

Setelah kita menjalankan potongan kode di atas, kita akan melihat output berikut:

Fungsi head() di Pandas dapat digunakan untuk menampilkan sampel data yang ada di DataFrame. Tunggu, DataFrame? Kami akan mempelajari lebih lanjut tentang DataFrame di bagian berikutnya tetapi hanya memahami bahwa DataFrame adalah struktur data n-dimensi yang dapat digunakan untuk menyimpan dan menganalisis atau operasi kompleks atas satu set data.

Kita juga dapat melihat berapa banyak baris dan kolom yang dimiliki data saat ini:

siswa.bentuk

Setelah kita menjalankan potongan kode di atas, kita akan melihat output berikut:

Perhatikan bahwa Panda juga menghitung jumlah baris mulai dari 0.

Dimungkinkan untuk mendapatkan kolom saja dalam daftar dengan Pandas. Ini dapat dilakukan dengan bantuan pengindeksan di Panda. Mari kita lihat cuplikan kode pendek untuk hal yang sama:

nama_siswa = siswa['Nama']
nama_siswa

Setelah kita menjalankan potongan kode di atas, kita akan melihat output berikut:

Tapi itu tidak terlihat seperti daftar, kan?? Nah, kita perlu memanggil fungsi secara eksplisit untuk mengubah objek ini menjadi daftar:

nama_siswa = nama_siswa.daftar()
nama_siswa

Setelah kita menjalankan potongan kode di atas, kita akan melihat output berikut:

Sekadar informasi tambahan, kami dapat memastikan bahwa setiap elemen dalam daftar itu unik dan kami hanya memilih elemen yang tidak kosong dengan menambahkan beberapa pemeriksaan sederhana seperti:

nama_siswa = siswa['Nama'].jatuhkan().unik().daftar()

Dalam kasus kami, output tidak akan berubah karena daftar sudah tidak mengandung nilai busuk apa pun.

Kami juga dapat membuat DataFrame dengan data mentah dan meneruskan nama kolom bersamanya, seperti yang ditunjukkan dalam cuplikan kode berikut:

data_saya = pd.Bingkai Data(
[
[1, "Chan"],
[2, "Smith"],
[3, "Winslet"]
],
kolom=["Peringkat", "Nama Belakang"]
)
data saya

Setelah kita menjalankan potongan kode di atas, kita akan melihat output berikut:

Mengiris DataFrames

Memecah DataFrames untuk mengekstrak hanya baris dan kolom yang dipilih adalah fungsi penting untuk menjaga perhatian terhadap bagian data yang diperlukan yang perlu kita gunakan. Untuk ini, Pandas memungkinkan kita untuk mengiris DataFrame saat dan bila diperlukan dengan pernyataan seperti:

Di bagian sebelumnya, kita telah melihat pengindeksan dan pengirisan dengan nama kolom, bukan indeks. Dimungkinkan juga untuk mencampur irisan dengan nomor indeks dan nama kolom. Mari kita lihat cuplikan kode sederhana:

siswa.lokasi[:5, 'Nama']

Setelah kita menjalankan potongan kode di atas, kita akan melihat output berikut:

Dimungkinkan untuk menentukan lebih dari satu kolom:

siswa.loc[:5, ['Nama', 'Kontak Darurat']]

Setelah kita menjalankan potongan kode di atas, kita akan melihat output berikut:

Struktur Data Seri di Panda

Sama seperti Pandas (yang merupakan struktur data multi-dimensi), Seri adalah struktur data satu dimensi di Pandas. Saat kami mengambil satu kolom dari DataFrame, kami sebenarnya bekerja dengan Seri:

jenis(siswa["Nama"])

Setelah kita menjalankan potongan kode di atas, kita akan melihat output berikut:

Kami juga dapat membuat Seri kami sendiri, berikut adalah cuplikan kode untuk hal yang sama:

seri = pd.Seri([ 'Shubham', 3.7 ])
seri

Setelah kita menjalankan potongan kode di atas, kita akan melihat output berikut:

Seperti yang jelas dari contoh di atas, Seri dapat berisi beberapa tipe data untuk kolom yang sama juga.

Filter Boolean di Pandas DataFrame

Salah satu hal yang baik di Pandas adalah bagaimana mengekstrak data dari DataFrame berdasarkan suatu kondisi. Seperti mengekstraksi siswa hanya ketika ada nomor gulungan lebih besar dari 6:

roll_filter = siswa['No Roll'] > 6
roll_filter

Setelah kita menjalankan potongan kode di atas, kita akan melihat output berikut:

Yah, bukan itu yang kami harapkan. Meskipun outputnya cukup eksplisit tentang baris mana yang memenuhi filter yang kami sediakan, tetapi kami masih belum memiliki baris persis yang memenuhi filter itu. Ternyata itu kita dapat menggunakan filter sebagai indeks DataFrame demikian juga:

siswa[roll_filter]

Setelah kita menjalankan potongan kode di atas, kita akan melihat output berikut:

Dimungkinkan untuk menggunakan beberapa kondisi dalam filter sehingga data dapat difilter pada satu filter ringkas, seperti:

next_filter = (siswa['No Roll'] > 6) & (siswa['Nama'] > 'S')
siswa[filter_berikutnya]

Setelah kita menjalankan potongan kode di atas, kita akan melihat output berikut:

Menghitung Median

Dalam DataFrame, kita juga dapat menghitung banyak fungsi matematika. Kami akan memberikan contoh yang baik untuk menghitung median. Median akan dihitung untuk tanggal, bukan hanya angka. Mari kita lihat cuplikan kode pendek untuk hal yang sama:

tanggal = siswa['Tanggal Masuk'].astype('datetime64[ns]').kuantil (.5)
tanggal

Setelah kita menjalankan potongan kode di atas, kita akan melihat output berikut:

Kami mencapai ini dengan terlebih dahulu mengindeks kolom tanggal yang kami miliki dan kemudian memberikan tipe data ke kolom sehingga Panda dapat menyimpulkannya dengan benar ketika menerapkan fungsi kuantil untuk menghitung tanggal median.

Kesimpulan

Dalam pelajaran ini, kita melihat berbagai aspek perpustakaan pemrosesan Pandas yang dapat kita gunakan dengan Python untuk mengumpulkan data dari berbagai sumber ke dalam struktur data DataFrame yang memungkinkan kita untuk beroperasi secara canggih pada kumpulan data. Ini juga memungkinkan kita untuk mendapatkan sub-set data yang ingin kita kerjakan sebentar dan menyediakan banyak operasi matematika.

Silakan bagikan umpan balik Anda tentang pelajaran di Twitter dengan @sbmaggarwal dan @LinuxHint.

Cara Menampilkan Penghitung FPS di Game Linux
Game Linux mendapat dorongan besar ketika Valve mengumumkan dukungan Linux untuk klien Steam dan game mereka pada tahun 2012. Sejak itu, banyak game A...
Cara mengunduh dan Memainkan Civilization VI Sid Meier di Linux
Pengenalan permainan Civilization 6 adalah konsep modern dari konsep klasik yang diperkenalkan dalam seri game Age of Empires. Idenya cukup sederhana;...
Cara Menginstal dan Memainkan Doom di Linux
Pengantar Doom Seri Doom berasal dari tahun 90-an setelah rilis Doom. Itu adalah hit instan dan sejak saat itu seri game telah menerima banyak penghar...