Bagaimana MySQL Menghapus Baris Duplikat

MySQL adalah dataset relasional yang menyimpan data dalam tabel yang memiliki baris dan kolom. Namun, data yang disimpan dalam database mungkin berisi nilai duplikat yang disebabkan oleh error dalam aplikasi atau user.

Dalam tutorial ini, kita akan belajar cara menghapus baris duplikat dalam database MySQL untuk mengurangi ukuran database dan membantu meningkatkan kinerja server.

Sebelum kita melanjutkan, kita asumsikan:

  1. Anda telah menginstal dan menjalankan MySQL di sistem Anda
  2. Anda memiliki akses root ke database.
  3. Anda memiliki akses ke database untuk bereksperimen atau menguji

CATATAN : Jika Anda memerlukan database sampel untuk mencoba konsep yang disediakan dalam panduan ini, harap pertimbangkan database Sakila atau download copyan database yang digunakan dalam panduan ini.

Sumber daya disediakan di bawah ini:

Penggunaan Dasar

Sebelum kita mulai, kita akan dengan sengaja membuat tabel yang berisi nilai duplikat untuk tujuan pengujian. Kueri SQL untuk melakukan tindakan ini di bawah ini:

USE world;
DROP TABLE IF EXISTS users;
CREATE TABLE users (id INT PRIMARY KEY NOT NULL AUTO_INCREMENT, username VARCHAR(10) NOT NULL, full_name VARCHAR(20), email VARCHAR(255) NOT NULL);
INSERT INTO users (username, full_name, email) VALUES
    ("virgo", "Claude M. Mori", "[email protected]"),
    ("pulsa", "Tiffany G. Bailey", "[email protected]"),
    ("rocket", "Christopher S. Payton", "[email protected]"),
    ("darkmatter", "Patricia J. Fox", "[email protected]"),
    ("pwnc", "Faye H. Hartley", "[email protected]"),
    ("darkmatter", "Patricia J. Fox", "[email protected]"),
    ("rocket", "Christopher S. Payton", "[email protected]"),
    ("artemis", "Wesley C. Dillard", "[email protected]");

Jangan ragu untuk memodifikasi kueri di atas agar sesuai dengan kebutuhan Anda. Anda juga harus memastikan bahwa Anda memiliki database (dunia) yang dibuat untuk menghindari error.

Sekarang, jika kita mendapatkan semua data di dalam tabel dan diurutkan berdasarkan nama user, kita akan melihat duplikat yang kita miliki seperti yang ditunjukkan:

mysql> use world;
Database changed
mysql> SELECT * FROM users ORDER BY username;
+----+------------+-----------------------+-----------------------+
| id | username   | full_name             | email                 |
+----+------------+-----------------------+-----------------------+
|  8 | artemis    | Wesley C. Dillard     | [email protected]       |
|  4 | darkmatter | Patricia J. Fox       | [email protected]        |
|  6 | darkmatter | Patricia J. Fox       | [email protected]        |
|  2 | pulsa      | Tiffany G. Bailey     | [email protected] |
|  5 | pwnc       | Faye H. Hartley       | [email protected]   |
|  3 | rocket     | Christopher S. Payton | [email protected]        |
|  7 | rocket     | Christopher S. Payton | [email protected]        |
|  1 | virgo      | Claude M. Mori        | [email protected]      |
+----+------------+-----------------------+-----------------------+

Seperti yang Anda lihat dari tabel di atas, kami memiliki dua nilai duplikat yang membuat database lebih besar tanpa alasan dan menyebabkan kecepatan lambat.

Sekarang mari kita pelajari bagaimana kita dapat menghapus nilai-nilai ini.

#1 – HAPUS GABUNG

Salah satu cara untuk menghapus baris duplikat dalam database adalah dengan menggunakan pernyataan MySQL DELETE JOIN. Kueri, bagaimanapun, menggunakan id untuk menghapus nilai duplikat.

Misalnya, untuk menghapus nilai duplikat pada tabel user di atas, kita dapat memasukkan:

DELETE  table1 FROM users table1 INNER JOIN users table2 WHERE table1.id < table2.id AND table1.email = table2.email;

Setelah Anda menjalankan kueri di atas, Anda akan menghapus nilai duplikat seperti
yang ditunjukkan pada output di bawah ini:

mysql> DELETE table1 FROM users table1 INNER JOIN users table2 WHERE table1.id < table2.id AND table1.email = table2.email;
Query OK, 2 rows affected (0.01 sec)
 
mysql> SELECT * FROM users ORDER BY username;
+----+------------+-----------------------+-----------------------+
| id | username   | full_name             | email                 |
+----+------------+-----------------------+-----------------------+
|  8 | artemis    | Wesley C. Dillard     | [email protected]       |
|  6 | darkmatter | Patricia J. Fox       | [email protected]        |
|  2 | pulsa      | Tiffany G. Bailey     | [email protected] |
|  5 | pwnc       | Faye H. Hartley       | [email protected]   |
|  7 | rocket     | Christopher S. Payton | [email protected]        |
|  1 | virgo      | Claude M. Mori        | [email protected]      |
+----+------------+-----------------------+-----------------------+

#2 – Fungsi Row_Number()

Metode kedua yang dapat kita terapkan adalah dengan menggunakan fungsi MySQL row_number(). Fungsi ini didukung di MySQL versi 8 dan lebih tinggi.

Ini bekerja dengan menetapkan nilai int berurutan ke setiap baris, dengan baris yang berisi nilai duplikat mendapatkan nilai lebih tinggi dari 1.

Untuk mempelajari lebih lanjut tentang fungsi ini, gunakan sumber daya yang disediakan di bawah ini:

https://dev.mysql.com/doc/refman/8.0/en/window-function-descriptions.html#function_row-number

Pertimbangkan kueri di bawah ini yang mengembalikan id baris dengan nilai duplikat:

SELECT id FROM (SELECT id, ROW_NUMBER() OVER (PARTITION BY username ORDER BY username) AS row_var FROM users) t1 WHERE row_var > 1;

Setelah Anda menjalankan kueri di atas, Anda akan mendapatkan daftar id seperti yang ditunjukkan pada output di bawah ini:

 +----+
| id |
+----+
|  6 |
|  7 |
+----+
2 rows in set (0.01 sec)

Jika Anda ingin menghapus nilai, cukup ganti pernyataan SELECT dengan pernyataan DELETE seperti yang ditunjukkan di bawah ini:

DELETE FROM users WHERE id IN (SELECT id FROM ( SELECT id, ROW_NUMBER() OVER (PARTITION BY username ORDER BY username) AS row_var FROM users) t1 WHERE row_var > 1);

Terakhir, Anda dapat memverifikasi bahwa nilai duplikat dihapus menggunakan pernyataan SELECT.

mysql> SELECT * from users ORDER BY username;
+----+------------+-----------------------+-----------------------+
| id | username   | full_name             | email                 |
+----+------------+-----------------------+-----------------------+
|  8 | artemis    | Wesley C. Dillard     | [email protected]       |
|  4 | darkmatter | Patricia J. Fox       | [email protected]        |
|  2 | pulsa      | Tiffany G. Bailey     | [email protected] |
|  5 | pwnc       | Faye H. Hartley       | [email protected]   |
|  3 | rocket     | Christopher S. Payton | [email protected]        |
|  1 | virgo      | Claude M. Mori        | [email protected]      |
+----+------------+-----------------------+-----------------------+

Kesimpulan

Dalam tutorial ini, kami membahas dua metode untuk menghapus nilai duplikat dari database. Basis data besar, terutama yang umum digunakan, mungkin berisi banyak nilai duplikat dari impor eksternal dan error lainnya. Oleh karena itu, ada kebutuhan untuk terus membersihkan nilai duplikat untuk memastikan bahwa aplikasi bekerja secara optimal.

Related Posts