REVIEW JURNAL DATA MINING
REVIEW
5
JURNAL DATA MINING
Ditulis untuk memenuhi tugas kelompok Konsep Data Mining
Lily Wulandari
KELOMPOK 1
Maxel Akbar Devaldo Robot (54418039)
Muhamad Hisyam (54418329)
Reza Ahmad Noer Zaman (56418045)
Zainal Abidin (57418571)
KELAS
4IA18
UNIVERSITAS
GUNADARMA
FAKULTAS
TEKNOLOGI INDUSTRI
TEKNIK
INFORMATIKA
Jurnal 1
(Penerapan Data Mining Dalam Pengelompokan Penderita
Thalassaemia)
·
Type data atau data set yang digunakan dalam penelitian ini bersumber dari
rekam medik penderita thalassemia di RS dr. Soekarjdo dan RS Prasetya Bunda
pada tahun 2015 sebanyak 2068 data.
·
Atribut yang digunakan meliputi kolom no, kolom tanggal transfuse, kolom
nama, kolom hb level, kolom volume darah.
·
Type atribut yang digunakan adalah kuantitatif rasio karena HB level dan volume
darah merupakan hasil dari pengukuran.
· Diemensi yang ada pada jurnal ini sejumlah 5 dimensi.
· Preprocessing
o
Data Cleaning à menghilangkan noise dan data yang tidak konsisten.
o
Data Integration à menggabungka data dari banyak database. Terdapat data terpisah, yaitu data tanggal lahir untuk
mengetahui umur penderita. Maka dilakukan cleaning kedua dengan mengintegrasikan
data awal penderita thalassemia.
o
Data Selection à meminimalkan jumlah data untuk proses mining dengan tetap menjaga
keutuhan data.
o
Data Transformation Ã
mengubah bentuk dan format data untuk memudahkan pengguna memahami hasil yang
didapat dari proses mining.
· Task mining
Menggunakan
algorita K-means dengna tahapan sebagai berikut :
o
Menentukan jumlah cluster k.
o
Melakukan alokasi data kedalam
cluster secara random.
o
Melakukan alokasi semua data ke
cluster terdekat. Untuk mengetahui jarak suatu data dengan suatu cluster
tertentu dapat menggunakan jarak Euclidean.
· Hasil
Melakukan
clustering sebagai berikut :
·
Cluster pertama à thalassemia ringan
Banyaknya data penderita Thalassaemia berjumlah 214. Dari 214 data yang termasuk kedalam cluster 1 diketahui bahwa volume darah (dalam cc) yang dibutuhkan adalah 100, 150 dan 200. Didapatkan pola Hb level, dan juga umur penderita bahwa data yang memiliki frekuensi paling banyak adalah data dengan Hb level antara 7,0 – 13,1 gr/dl dan umur antara 6 – 11 tahun.
·
Cluster kedua Ã
thalassemia sedang
Banyaknya data penderita Thalassaemia berjumlah 137. Dari 137 data yang termasuk kedalam cluster 2 diketahui bahwa volume darah (dalam cc) yang dibutuhkan adalah sekitar 400cc. Didapatkan pola Hb level, dan juga umur penderita pada table. Berdasarkan tabel diatas diketahui bahwa data yang memiliki frekuensi paing banyak adalah data dengan Hb level antara 7,0 – 10,0 gr/dl dan umur antara 11 – 15 tahun.
·
Cluster ketiga Ã
thalassemia berat
Banyaknya data penderita Thalassaemia berjumlah 23. Dari 23 data
yang termasuk kedalam cluster 3 diketahui bahwa volume darah (dalam cc) yang
dibutuhkan adalah 600 dan 800 cc. Didapatkan pola Hb level, dan juga umur
penderita pada table. Dari tabel diatas diketahui bahwa data yang memiliki
frekuensi paling banyak adalah data dengan Hb level antara 3,5 – 6,9 gr/dl
dengan umur antara 16 - 20 tahun.
Jurnal 2
(Implementasi Data Mining untuk Menentukan Kombinasi Media Promosi Barang
Berdasarkan Perilaku Pembelian Pelanggan Menggunakan Algoritma Apriori)
·
Type data atau data set yang digunakan dalam penelitian ini
menggunakan data primer, dimana data primer adalah data yang diambil secara
langsung oleh peneliti melalui survey yang disebar.
·
Atribut yang digunakan meliputi baliho, brosur, website, SMS, iklan
atau fans page Facebook, Instagram, Spam yang dilakukan dikomen-komen foto
artis/ viral, website resmi, dan forum. Sedangkan target atributnya adalah
menentukan media promosi yang tepat.
·
Type atribut yaitu ordinal
·
Dimensi yang digunakan terdapat 9
·
Preprocessing
1.
Pembersihan
Data: membuang data yang tidak sesuai
dengan tujuan penelitian
2.
Integrasi Data:
Penyebaran survey dilakukan di 5 titik
kampus sehingga untuk menggunakan data secara keseluruhan dilakukan
penggabungan informasi dan penyesuaian yang sama untuk teknik pembersihan data.
3.
Seleksi Data: memilih data mana saja yang akan diambil dan dijadikan
masukan proses mining
4.
Transformasi
Data: mengubah data yang terpilih
sebelumnya menjadi format yang sesuai dengan Algoritma Apriori.
·
Task Mining
Menggunakan Algoritma
Apriori dengan langkah-langkah sebagai berikut:
1.
Transformasi data ke
dalam bentuk Apriori (Tabel I hingga Tabel III)
2.
Buat kombinasi dari 2
set data untuk semua item hingga tidak bisa lagi dikombinasikan (disebut calon
kombinasi 2 set/ calon F2)
3.
Isi nilai frekuensi
item set atau jumlah kemunculan kombinasi tersebut sesuai tabel transformasi
data 0 dan 1
4.
Tentukan nilai minimal
support
5.
Lakukan pemangkasan
atau pembuangan item set yang memiliki nilai < minimal support (yang
diterima adalah frekuensi item set >= minimal support). Hal ini dilakukan
untuk menemukan F2 akhir
6.
Hasil poin 5 dijadikan
acuan untuk menemukan kembali kombinasi 3 item set. Buat kombinasi 3 item set
untuk semua item hingga tidak bisa lagi dikombinasikan
7.
Lakukan poin 4 dan 5
8.
Jika tidak ada lagi
item yang dapat dikombinasikan (contoh dalam penelitian ini hanya sampai
kombinasi 3 item), maka hitung nilai confidence untuk F2 dan F3
9.
Selanjutnya tentukan
nilai minimal confidence, lalu panggkas item set yang kurang dari nilai minimal
confidence (yang diterima adalah nilai confidence >= minimal confidence)
10. Fokus pada item set yang memenuhi kriteria minimal
confidence, lalu hitung asosiasi final yang diperoleh dari perkalian support
dan confidence
11. Urutkan Asosiasi Final untuk melihat kombinasi item set yang
paling cocok (kepastian)
·
Hasil
Berdasarkan penilitian
menggunakan Algoritma Apriori didapatkan hasil:
o sebanyak 60% pelanggan membeli barang melalui web bersamaan
dengan melalui brosur
o Sebesar 92,3% pelanggan yang membeli barang melalui web
pasti membeli barang melalui brosur
o Sebanyak 55% pelanggan membeli barang melalui instagram
bersamaan dengan melalui brosur
o Sebesar 84,6% pelanggan yang membeli barang melalui
instagram pasti membeli barang melalui brosur
o Sebanyak 70% pelanggan membeli barang melalui web bersamaan
dengan melalui Instagram
o Sebesar 93,3% pelanggan yang membeli barang melalui web
pasti membeli barang melalui Instagram
o Sebanyak 80% pelanggan membeli barang melalui web lain
bersamaan dengan melalui web resminya
o Sebesar 100% pelanggan yang membeli barang melalui web lain
pasti membeli barang melalui web resminya
o Sebanyak 80% pelanggan membeli barang melalui web resmi
bersamaan dengan melalui web lainnya
o Sebesar 84,2% pelanggan yang membeli barang melalui web
resmi pasti membeli barang melalui web lainnya
o Sebanyak 50% pelanggan membeli barang melalui web lain dan
instagram bersamaan dengan melalui brosur
Sebesar 76,92%
pelanggan yang membeli barang melalui web lain dan instagram pasti membeli
barang melalui brosur
Jurnal 3
(Implementasi Data Mining Pemilihan Pelanggan Potensial Menggunakan Algoritma
K-Means)
·
Type data atau data set yang digunakan dalam penelitian ini bersumber dari
pengumpulan data yang dilakukan secara sekunder, mengambil data secara langsung
dari pasarayastore.com. Data yang didapat adalah name, Valid orders, dan Money
spent (IDR). Dengan periode waktu januari 2018 sampai juni 2021
·
Atribut yang digunakan meliputi name, Valid orders, dan Money spent (IDR) setelah
pemprosesan akan menghasilkan atribut cluster pertama atau C1, cluster kedua
atau C2, dan cluster ketiga atau C3
·
Atribut type yang digunakan adalah atribut nominal
·
Preprocessing yang dilakukan pada jurnal ini dilakukan dengan pembersihan dan
persiapan data, untuk menghilangkan kosistensi data, data tidak lengkap dan
redundant data yang terdapat pada data awal. Normalisasi digunakan untuk
menghilangkan data yang berlebihan dan memastikan bahwa cluster kualitas
terbaik dihasilkan yang dapat meningkatkan efisiensi algoritma clustering. Data
preprocessing dengan melakukan penghapusan data transaksi pelanggan yang tidak
pernah melakukan Valid orders atau bernilai 0. Kemudian dilakukan perubahan
tipe data yang tidak bisa diolah secara metematis menjadi data yang bisa diolah
dengan melakukan transformasi data alpha numeric (teks) menjadi numerik. Pada
kolom Name yang datanya berupa teks, diubah menjadi numerik dengan dijadikan
nomor urut.
· Task mining
Data yang telah
dilakukan preprocessing kemudian dilakukan clustering atau mencari pola dari
data untuk kemudian mengelompokkan data tersebut berdasarkan pola yang
didapatkan, data dengan pola yang sama akan masuk ke cluster yang sama menggunakan
Algoritma K-Means. Algoritma K-Means adalah algoritma pada clustering
yang melakukan pengelompokan dengan membandingkan jarak tiap data ke centroid
tiap cluster dan nilai centroid didapatkan dari rerata tiap cluster. Dengan
langkah-langkah sebagai berikut :
1.
Penentuan cluster yang dibuat
adalah 3 cluster yaitu cluster pertama (C1), cluster kedua (C2) dan cluster
ketiga (C3).
2.
Menentukan nilai pusat cluster
(centroid) awal secara acak dari data transaksi pelanggan. Kriteria centroid
diambil dari atribut-atribut data transaksi pelanggan, centroid kriteria 1
adalah Valid orders dan centroid kriteria 2 adalah Money spent (IDR).
3.
Menghitung jarak setiap data ke
setiap centroid dengan mengunakan rumus jarak Euclidean
4.
Mengelompokan data pada cluster
terdekat. Pada iterasi pertama diperoleh hasil 239 data masuk ke dalam cluster
pertama, 1221 data masuk ke dalam cluster kedua dan 23 data masuk ke dalam
cluster ketiga
5.
Menentukan nilai pusat cluster
baru. Perhitungan centroid baru dengan menggunakan persamaan
6.
Tahap 3 sampai 5 akan terus
berulang apabila masih ada data yang berpindah cluster atau ada perubahan nilai
pada centroid.
7.
Proses iterasi ini akan
berhenti jika hasil yang dicapai sudah konvergen (pusat cluster baru sama
dengan pusat cluster lama). Pada penelitian ini proses berhenti pada iterasi ke
11 dengan nilai centroid: C1 = (11,0833;6258701,667) C2 = (1,0969;319047,216)
C3 = (2,7059;1803723,7647)
· Hasil
Pada setiap
cluster terdapat titik pusat (centroid) yang merepresentasikan cluster
tersebut. Hasil menjelaskan bahwa centroid Valid orders pada cluster 1 adalah
11, centroid Valid orders pada cluster 2 adalah 1 dan centroid Valid orders
pada cluster 3 adalah 2,7. Centroid Money spent (IDR) pada cluster 1 adalah
6258702, centroid Money spent (IDR) pada cluster 2 adalah 319047 dan centroid
Money spent (IDR) pada cluster 3 adalah 1803723.
Perhitungan
clustering K-Means pelanggan terkelompok menjadi 3 cluster, yaitu 12 pelanggan
dengan rata-rata 11 kali bertransaksi (cluster 1), 1403 pelanggan dengan
rata-rata 1 kali bertransaksi (cluster 2), dan 68 pelanggan dengan rata-rata 3
kali bertransaksi (cluster 3). Pelanggan potensial berhasil didapatkan, yaitu
yang memiliki rata-rata transaksi dan uang yang dibelanjakan terbanyak pada
cluster pertama (C1). Pelayanan dan penjualan menjadi mudah, respon cepat serta
adanya dukungan sumber daya yang baik berimbas pada peningkatan pelayanan
terhadap pelanggan potensial.
·
Tools yang digunakan tidak dijelaskan oleh penulis
Jurnal 4
(Penerapan Data Mining Untuk Memprediksi
Kriteria Nasabah Kredit)
·
Type data atau data set yang digunakan dalam penelitian ini bersumber
dari data angsuran nasabah kredit bank XY pada bulan juni 2009 dalam format
Microsoft Excel.
·
Jumlah field sebanyak
27 kolom, namun yang dijadikan sebagai atribut dalam proses data mining
ada 9 yaitu jenis_kelamin, umur, desa, kecamatan, status_marital,
nilai_pinjaman, jml_angsuran, kode_integrasi, dan cek.
· Type atribut nya adalah nominal. Sedangkan cek adalah atribut target.
·
Jumlah
dimensinya adalah 8 yaitu jenis
kelamin, umur, desa, kecamatan, status_marital, nilai_pinjaman, jml_angsuran,
dan kode_integrasi
·
Preprocessing
Preprocessing yang dilakukan terlebih dahulu terhadap data yang digunakan adalah data integration and transformation, data cleaning, dan data reduction sehingga data tersebut siap untuk di-mining.
·
Task mining
Menggunakan
classification dengan algoritma C4.5 dengan tahapan sebagai berikut :
Pada teknik
classification, keluaran dari setiap data yang dijadikan parameter target atau
class harus berupa bilangan bulat atau diskrit. field yang dijadikan parameter
target (class), yaitu field “CEK” yang berisi nilai parameter AKTIF dan TIDAK-AKTIF.
Nilai parameter AKTIF berarti nasabah masih mempunyai angsuran kredit kepada
bank, sedangkan TIDAK-AKTIF berarti nasabah sudah tidak mempunyai angsuran
kredit kepada bank lagi (sudah melunasi pembayaran kreditnya). Setelah pohon
keputusan terbentuk secara utuh, maka dibuat aturan prediksi berdasarkan hasil
pembentukan pohon keputusan tersebut
·
Hasil
Berdasarkan
hasil penelitian tersebut, sistem membaca lokasi alamat data yang diinputkan
pengguna, melakukan proses import data setelah aktor mengklik tombol “import”,
kemudian menampilkan hasil data yang telah selesai di impor ke dalam aplikasi.
Kondisi awal,
pengguna sudah terautentifikasi dan berada pada halaman utama aplikasi data
mining. Dengan keberhasilan ditandai dengan data yang berhasil diimpor. Sistem
berhasil mendapatkan atribut target yaitu kolom “CEK” sesuai kebutuhan
·
Tools
Penelitian ini
menggunaakan python sebagai tools pembuatan programnya.
Jurnal 5
(Implementasi Data Mining Untuk Evaluasi Kinerja Akademik Mahasiswa Menggunakan
Algoritma Naive Bayes Classifier)
·
Type data atau data set yang digunakan dalam penelitian adalah data
nominal, yaitu data mahasiswa STMIK Dipanegara Makassar dari tahun 2013-2014
yang belum lulus.
·
Atribut dalam proses data mining ada 10 yaitu stambuk, nama,
jenis_kelamin, ips1, ips2, ips3, ips4, ipk, hasil_klasifikasi, dan rekomendasi.
·
Type atribut stambuk, nama, jenis_kelamin, ips1, ips2, ips3, ips4, ipk,
hasil_klasifikasi, adalah prediktor. Sedangkan rekomendasi adalah atribut
target.
·
Jumlah
dimensinya adalah 9 yaitu
stambuk, nama, jenis_kelamin, ips1, ips2, ips3, ips4, ipk, hasil_klasifikasi.
·
Preprocessing
Preprocessing
yang dilakukan terlebih dahulu terhadap data yang digunakan adalah data
cleaning, data dibersihkan melalui beberapa proses seperti mengisi nilai yang
hilang, menghaluskan noisy data, dan menyelesaikan inkonsistensi yang
ditemukan. Kemudian data transformation untuk memastikan tidak ada kelebihan
data.
·
Task mining
Menggunakan
classification dengan algoritma Naive Bayes Classifier dengan tahapan sebagai
berikut :
Pada penulisan
ini, bertujuan untuk menentukan rekomendasi suatu mahasiswa berdasarkan ipk dan
ketepatan waktu lulus sehingga menghasilkan keluaran apakah mahasiswa tersebut
mendapat rekomendasi atau tidak.
·
Hasil
Dalam menguji akurasi dan ketepatan hasil pengklasifikasian
pada penelitian ini digunakan 26 data alumni yang diambil secara acak. Dari26
data tersebut tidak terdapat di dalam data training. Hal ini dimaksudkan agar
hasil pengklasifikasian kelulusan dari sistem yang dirancang dapat dibandingkan
dengan hasil kelulusan yang sesuai dengan data alumni mahasiswa STMIK
Dipanegara Makassar.
Metode pengujian yang digunakan dalam penelitian ini adalah
Confusion Matrix, yaitu suatu metode yang biasanya digunakan dalam melakukan
perhitungan akurasi pada suatu data mining. Perhitungan yang dihasilkan dari
rumus ini terdiri dari 4 jenis keluaran, antara lain recall, accuracy,
precision, dan error rate.
1. Recall adalah proporsi kasus positif
yang diidentifikasi dengan benar, rumus recall = D/(C+D)
2. Accuracy adalah perbandingan kasus
yang teridentifikasi benar dengan jumlah semua kasus, rumus dari accuracy=
(A+D)/(A+B+C+D)
3. Precision adalah proporsi kasus
dengan hasil positif yang benar, rumus dari Precision = D/(B+D)
4. Error Rate adalah kasus yang
teridentifikasi salah yang dibandingkan dengan jumlah semua kasus, rumus dari
Error Rate = (B+C)/( A+B+C+D)
Keterangan:
A = jika hasil
prediksi Terlambat dan data sebenarnya Terlambat.
B = jika hasil
prediksi Tepat Waktu sedangkan nilai sebenarnya Terlambat.
C = jika hasil
prediksi Terlambat sedangkan nilai sebenarnya Tepat Waktu.
D = jika hasil
prediksi Tepat Waktu dan nilai sebenarnya Tepat Waktu.
Hasil pengujian
menunjukkan accuracy sebesar 92.30%. Detail perbandingannya dapat dilihat pada
gambar berikut
·
Tools
Penulis tidak
menjelaskan tools yang digunakan, namun berdasarkan hasil penulisan,
diidentifikasi bahwa menggunakan bantuan vb atau delphi dalam membuatnya.
Referensi
Angga Ginanjar Mabrur, R. L., 2012.
Penerapan Data Mining Untuk Meprediksi Kriteria Nasabah Kredit. Jurnal
Komputer dan Informatika, Volume 1.
Fitriati,
D., 2016. Implementasi Data Mining untuk Menentukan Kombinasi Media Promosi
Barang Berdasarkan Perilaku Pembelian Pelanggan Menggunakan Algoritma
Apriori. Annual Research Seminar 2016, 2(979-587-626-0).
Heni
Sulastri, A. I. G., 2017. Penerapan Data Mining Dalam Pengelompokan Penderita
Thalassaemia. Jurnal Nasional Teknologi dan Sistem Informasi, 03(2476-8812).
M. Syukri
Mustafa, M. R. R. A. P. T., 2017. Implementasi Data Mining untuk Evaluasi
Kinerja Akademik Mahasiswa Menggunakan Algoritma Naive Bayes Classifier. Citec
Journal, 4(2460-4259).
Yahya Novi
Andi Cuhwanto, D. A. R., 2022. Implementasi Data Mining Pemilihan Pelanggan
Potensial Menggunakan Algoritma K-Means. Jurnal Pengkajian dan Penerapan
Teknik Informatika, 15(2655-5018).

Komentar
Posting Komentar