panda

Cara Menjatuhkan Baris Duplikat di Pandas Python

Cara Menjatuhkan Baris Duplikat di Pandas Python
Python adalah salah satu bahasa pemrograman paling populer untuk analisis data dan juga mendukung berbagai paket data-centric Python. Paket Pandas adalah beberapa paket Python paling populer dan dapat diimpor untuk analisis data. Di hampir semua kumpulan data, baris duplikat sering ada, yang dapat menyebabkan masalah selama analisis data atau operasi aritmatika. Pendekatan terbaik untuk analisis data adalah mengidentifikasi setiap baris duplikat dan menghapusnya dari kumpulan data Anda. Menggunakan fungsi Pandas drop_duplicates(), Anda dapat dengan mudah menjatuhkan, atau menghapus, menduplikasi catatan dari bingkai data data.
Artikel ini menunjukkan cara menemukan duplikat dalam data dan menghapus duplikat menggunakan fungsi Pandas Python.

Dalam artikel ini, kami telah mengambil kumpulan data populasi berbagai negara bagian di Amerika Serikat, yang tersedia di a .format file csv. Kami akan membaca .csv untuk menampilkan konten asli dari file ini, sebagai berikut:

impor panda sebagai pd
df_state=pd.read_csv("C:/Pengguna/DELL/Desktop/population_ds.csv")
cetak(df_state)

Pada tangkapan layar berikut, Anda dapat melihat konten duplikat dari file ini:

Mengidentifikasi Duplikat di Pandas Python

Penting untuk menentukan apakah data yang Anda gunakan memiliki baris duplikat. Untuk memeriksa duplikasi data, Anda dapat menggunakan salah satu metode yang tercakup dalam bagian berikut.

Metode 1:

Baca file csv dan berikan ke bingkai data. Kemudian, identifikasi baris duplikat menggunakan digandakan() fungsi. Terakhir, gunakan pernyataan cetak untuk menampilkan baris duplikat.

impor panda sebagai pd
df_state=pd.read_csv("C:/Pengguna/DELL/Desktop/population_ds.csv")
Dup_Rows = df_state[df_state.digandakan()]
print("\n\nDuplikat Baris : \n ".format(Dup_Rows))

Metode 2:

Dengan menggunakan metode ini, is_duplicated kolom akan ditambahkan ke akhir tabel dan ditandai sebagai 'Benar' dalam kasus baris duplikat.

impor panda sebagai pd
df_state=pd.read_csv("C:/Pengguna/DELL/Desktop/population_ds.csv")
df_state["is_duplicate"]= df_state.digandakan()
print("\n".format(df_state))

Menjatuhkan Duplikat di Pandas Python

Baris duplikat dapat dihapus dari bingkai data Anda menggunakan sintaks berikut:
drop_duplicates(subset=", keep=", inplace=False)
Tiga parameter di atas adalah opsional dan dijelaskan secara lebih rinci di bawah ini:
menjaga: parameter ini memiliki tiga nilai berbeda: Pertama, Terakhir, dan Salah. Nilai Pertama menyimpan kejadian pertama dan menghapus duplikat berikutnya, nilai Terakhir hanya menyimpan kejadian terakhir dan menghapus semua duplikat sebelumnya, dan nilai Salah menghapus semua baris duplikat.
bagian: label yang digunakan untuk mengidentifikasi baris yang digandakan
di tempat: berisi dua kondisi: Benar dan Salah. Parameter ini akan menghapus baris duplikat jika disetel ke True.

Hapus Duplikat Menjaga Hanya Kejadian Pertama

Saat Anda menggunakan “keep=first,” hanya kemunculan baris pertama yang akan disimpan, dan semua duplikat lainnya akan dihapus.

Contoh

Dalam contoh ini, hanya baris pertama yang akan disimpan, dan duplikat yang tersisa akan dihapus:

impor panda sebagai pd
df_state=pd.read_csv("C:/Pengguna/DELL/Desktop/population_ds.csv")
Dup_Rows = df_state[df_state.digandakan()]
print("\n\nDuplikat Baris : \n ".format(Dup_Rows))
DF_RM_DUP = df_state.drop_duplicates(keep='first')
print('\n\nHasil DataFrame setelah penghapusan duplikat :\n', DF_RM_DUP.kepala(n=5))

Pada tangkapan layar berikut, kemunculan baris pertama yang dipertahankan disorot dengan warna merah dan duplikasi yang tersisa dihapus:

Hapus Duplikat Menjaga Hanya Kejadian Terakhir

Saat Anda menggunakan “keep=last”, semua baris duplikat kecuali kemunculan terakhir akan dihapus.

Contoh

Dalam contoh berikut, semua baris duplikat dihapus kecuali hanya kejadian terakhir except.

impor panda sebagai pd
df_state=pd.read_csv("C:/Pengguna/DELL/Desktop/population_ds.csv")
Dup_Rows = df_state[df_state.digandakan()]
print("\n\nDuplikat Baris : \n ".format(Dup_Rows))
DF_RM_DUP = df_state.drop_duplicates(keep='terakhir')
print('\n\nHasil DataFrame setelah penghapusan duplikat :\n', DF_RM_DUP.kepala(n=5))

Pada gambar berikut, duplikat dihapus dan hanya kemunculan baris terakhir yang disimpan:

Hapus Semua Baris Duplikat

Untuk menghapus semua baris duplikat dari tabel, setel “keep=False,” sebagai berikut:

impor panda sebagai pd
df_state=pd.read_csv("C:/Pengguna/DELL/Desktop/population_ds.csv")
Dup_Rows = df_state[df_state.digandakan()]
print("\n\nDuplikat Baris : \n ".format(Dup_Rows))
DF_RM_DUP = df_state.drop_duplicates(keep=False)
print('\n\nHasil DataFrame setelah penghapusan duplikat :\n', DF_RM_DUP.kepala(n=5))

Seperti yang Anda lihat pada gambar berikut, semua duplikat dihapus dari bingkai data:

Hapus Duplikat Terkait dari Kolom Tertentu

Secara default, fungsi memeriksa semua baris duplikat dari semua kolom dalam bingkai data yang diberikan. Tapi, Anda juga bisa menentukan nama kolom dengan menggunakan parameter subset.

Contoh

Dalam contoh berikut, semua duplikat terkait dihapus dari kolom 'Negara Bagian'.

impor panda sebagai pd
df_state=pd.read_csv("C:/Pengguna/DELL/Desktop/population_ds.csv")
Dup_Rows = df_state[df_state.digandakan()]
print("\n\nDuplikat Baris : \n ".format(Dup_Rows))
DF_RM_DUP = df_state.drop_duplicates(subset='Negara')
print('\n\nHasil DataFrame setelah penghapusan duplikat :\n', DF_RM_DUP.kepala(n=6))

Kesimpulan

Artikel ini menunjukkan kepada Anda cara menghapus baris duplikat dari bingkai data menggunakan drop_duplikat() fungsi di Pandas Python. Anda juga dapat menghapus data duplikasi atau redundansi menggunakan fungsi ini. Artikel tersebut juga menunjukkan kepada Anda cara mengidentifikasi duplikat apa pun dalam bingkai data Anda.

Game Baris Perintah Terbaik untuk Linux
Baris perintah bukan hanya sekutu terbesar Anda saat menggunakan Linux-ini juga dapat menjadi sumber hiburan karena Anda dapat menggunakannya untuk me...
Aplikasi Pemetaan Gamepad Terbaik untuk Linux
Jika Anda suka bermain game di Linux dengan gamepad alih-alih sistem input keyboard dan mouse biasa, ada beberapa aplikasi yang berguna untuk Anda. Ba...
Alat Berguna untuk Gamer Linux
Jika Anda suka bermain game di Linux, kemungkinan besar Anda telah menggunakan aplikasi dan utilitas seperti Wine, Lutris, dan OBS Studio untuk mening...