Linux

cara menjatuhkan baris duplikat di pandas python

Untuk menjatuhkan baris duplikat dari DataFrame dalam Pandas Python, Anda dapat menggunakan metode `drop_duplicates()`. Metode ini menghapus baris yang memiliki nilai yang sama di semua kolom atau hanya di kolom tertentu. Berikut adalah beberapa contoh:

### 1. Menghapus Baris Duplikat Berdasarkan Semua Kolom:

```python
import pandas as pd

# Contoh DataFrame
data = {'Name': ['Alice', 'Bob', 'Alice', 'Charlie', 'Bob'],
'Age': [25, 30, 25, 35, 30],
'City': ['New York', 'San Francisco', 'New York', 'Los Angeles', 'San Francisco']}
df = pd.DataFrame(data)

# Menghapus baris duplikat berdasarkan semua kolom
df_no_duplicates = df.drop_duplicates()

# Menampilkan hasil
print(df_no_duplicates)
```

### 2. Menghapus Baris Duplikat Berdasarkan Kolom Tertentu:

```python
import pandas as pd

# Contoh DataFrame
data = {'Name': ['Alice', 'Bob', 'Alice', 'Charlie', 'Bob'],
'Age': [25, 30, 25, 35, 30],
'City': ['New York', 'San Francisco', 'New York', 'Los Angeles', 'San Francisco']}
df = pd.DataFrame(data)

# Menghapus baris duplikat berdasarkan kolom 'Name'
df_no_duplicates_name = df.drop_duplicates(subset='Name')

# Menampilkan hasil
print(df_no_duplicates_name)
```

### 3. Menghapus Baris Duplikat dan Menyimpan Perubahan pada DataFrame Asli:

```python
import pandas as pd

# Contoh DataFrame
data = {'Name': ['Alice', 'Bob', 'Alice', 'Charlie', 'Bob'],
'Age': [25, 30, 25, 35, 30],
'City': ['New York', 'San Francisco', 'New York', 'Los Angeles', 'San Francisco']}
df = pd.DataFrame(data)

# Menghapus baris duplikat dan menyimpan perubahan pada DataFrame asli
df.drop_duplicates(inplace=True)

# Menampilkan hasil
print(df)
```

Metode `drop_duplicates()` secara default akan mempertahankan baris pertama yang ditemui dan menghapus baris duplikat yang ditemui selanjutnya. Anda dapat menyesuaikan perilaku ini dengan menggunakan argumen seperti `keep=’first’`, `keep=’last’`, atau `keep=False`.

```python
# Contoh: Menjatuhkan semua baris duplikat (menghasilkan DataFrame kosong)
df_no_duplicates_all = df.drop_duplicates(keep=False)
print(df_no_duplicates_all)
```

Pilih metode yang sesuai dengan kebutuhan analisis data Anda.

Related Posts