Apa itu data yang hilang beserta tujuannya dalam penelitian

STEP 2: DETERMINE THE EXTENT OF MISSING DATALangkah 2 : Tentukan banyak data yang hilang1.Menentukan sejauh mana data yang hilang pada pola variabel individu, kasus individu ataubahkan secara keseluruhan2. Menentukan tingkat atau jumlah data yang hilang cukup rendah untuk tidak memengaruhihasil bahkan jika beroperasi dengan cara nonrandom3.Jika nilainya cukup rendah, maka salah satu pendekatan untuk memperbaiki data yang hilangdapat diterapkan4.Jika tingkat data yang hilang tidak cukup rendah, maka kita harus terlebih dahulu menentukanrandom proses data yang hilang sebelum memilih perbaikan (langkah 3).5.Apakah cukup rendah?Assessing the Extent and Patterns of Missing Data (Menilai Luas dan Pola Data yangHilang.)Cara paling langsung untuk menilai sejauh mana data yang hilang sebagai berikut:a.Membuat tabulasib.Persentase variabel dengan data yang hilang untuk setiap kasusc.Jumlah kasus dengan data yang hilang untuk setiap variabeld. Peneliti harus mencari pola nonrandom dalam data, seperti konsentrasi data yang hilangdalam rangkaian pertanyaan tertentu, pengurangan karena tidak mengisi kuesioner, dansebagainyae.Tentukan jumlah kasus tanpa data yang hilang (100% selesai)f.Apakah data yang hilang terlalu tinggi untuk menimbulkan diagnosis tambahan? (AturanThumb 1). kemungkinan bahwa mengabaikan data yang hilang atau menggunakan beberapasolusi untuk mengganti nilai untuk data yang hilang dapat menciptakan diagnosa dalam datayang akan sangat mempengaruhi hasil. Meskipun sebagian besar diskusi tentang masalah inimemerlukan penilaian peneliti, dua pedoman dalam Aturan Thumb 1 berlaku.Thumb 1(how much missing data is too much)-Data yang hilang di bawah 10% untuk kasus atau observasi individu umumnya dapatdiabaikan, kecuali jika data yang hilang terjadi dengan cara nonrandom tertentu (misalnya,konsentrasi dalam serangkaian pertanyaan tertentu, atrisi di akhir kuesioner, dll.)-Jumlah kasus tanpa data yang hilang harus mencukupi untuk teknik analisis yang dipilih jikanilai pengganti tidak akan diganti (diperhitungkan) untuk data yang hilang

Yudi Evriyanto, 0901114299M (2004) PERBANDINGAN METODE IMPUTASI UNTUK MENGESTIMASI DATA HILANG PADA DATA KESEHATAN IBU DAN ANAK DI JAWA TIMUR. Thesis thesis, UNIVERSITAS AIRLANGGA.

Official URL: http://lib.unair.ac.id

Abstract

Data yang baik adalah data yang dikumpulkan tepat waktu, lengkap dan benar. Tetapi untuk mendapatkan data yang baik tidaklah mudah, bahkan sering terjadi data yang dikumpulkan, baik data survei maupun rutin, adanya beberapa data hilang (missing data) atau data tidak lengkap (incomplete data). Berdasarkan buku Profil Kesehatan Jawa Timur Tahun 2000 dan Tahun 2001, ditemukan banyak data hilang pada data Kesehatan Ibu dan Anak. Data yang hilang tersebut persentasenya berkisar antara 16 % sampai dengan 40 %. Salah satu Cara untuk mengatasi data hilang adalah metode imputasi. Metode imputasi adalah mengisi data hilang dengan nilai yang diperkirakan cukup layak dan kemudian dianalisis dengan metode baku untuk data lengkap. Tujuan dari penelitian ini adalah membandingkan metode imputasi untuk mengestimasi data hilang dengan metode Series Mean, Mean of Nearby Points, Median of Nearby Points, Linier Interpolation, Linier Trend at Point dan mencari metode mana yang lebih baik di antara kelima metode tersebut. Data yang digunakan dalam penelitian ini adalah data Kesehatan Ibu dan Anak di Propinsi Jawa Timur, yang berasal dari Laporan Tahunan Dinas Kesehatan Provinsi Jawa Timur tahun 2000. Variabel-variabel yang akan diteliti adalah K1 (kunjungan ibu hamil pertama kali), K4 (kunjungan ibu hamil ke empat) dan Linakes (pertolongan persalinan oleh tenaga kesehatan). Untuk menganalisis data hilang pada data kesehatan ibu dan anak dilakukan tahapan kegiatan sebagai berikut : Pertama, data kesehatan ibu dan anak yang lengkap, sengaja dihilangkan secara acak dengan menggunakan soft ware statistik. Pada setiap variabel item yang akan dihilangkan mulai dari 5 %, 10 %, 15 %, 20 % dan terakhir 25 %. Kedua, item yang hilang tersebut akan dilengkapi lagi dengan metode Series Mean, Mean of Nearby Points (2), Median of Nearby Points (2), Linier Interpolation dan Linier Trend at Point dengan menggunakan soft ware statistik. Ketiga, untuk melihat apakah ada perbedaan antara ke lima metode dengan item yang hilang digunakan uji Anova Sama Subyek dan untuk memilih metode mana yang berbeda dalam mengestimasi item yang hilang digunakan uji t Sampel Berpasangan. Keempat, untuk menentukan metode imputasi mana yang yang balk dalam mengestimasi item hilang dilihat nilai korelasinya (r). Setelah dilakukan uji statistik metode imputasi yang baik adalah metode mean of nearby points, median of nearby points dan Tinier interpolation dan yang tidak baik adalah metode series means dan metode Tinier trend at point. Dad 3 metode imputasi yang balk, secara keseluruhan metode imputasi yang paling baik dalam mengestimasi item hilang adalah metode median of nearby points, karena jumlahnya yang paling banyak muncul, yaitu 9 kali (60 %). Bagi peneliti lain yang tertarik dengan analisis data hilang, disarankan untuk mempelajari metode imputasi yang lain dan data yang digunakan adalah data individual, bukan data kelompok (agregat) yang sudah merupakan rekapitulasi data.

Item Type: Thesis (Thesis)
Additional Information: KKC KK TKM. 35/05 Evr p
Uncontrolled Keywords: The missing data, Imputasi method, Series Mean method, Mean of Nearby Points methods, Median of Nearby Points methods, Linier Interpolation method, Linier Trend at Point method.
Subjects: R Medicine > RA Public aspects of medicine > RA1-1270 Public aspects of medicine > RA1-418.5 Medicine and the state > RA407-409.5 Health status indicators. Medical statistics and surveys
Divisions: 10. Fakultas Kesehatan Masyarakat
Creators:
CreatorsNIM
Yudi Evriyanto, 0901114299MUNSPECIFIED
Contributors:
ContributionNameNIDN / NIDK
Thesis advisorSarmanu, Prof. Dr. drh., M.SUNSPECIFIED
Thesis advisorHari Basuki, Dr. dr., M.KesUNSPECIFIED
Depositing User: Nn Husnul Khotimah
Date Deposited: 2016
Last Modified: 05 Oct 2016 04:06
URI: http://repository.unair.ac.id/id/eprint/35857
Sosial Share:

Actions (login required)

Apa itu data yang hilang beserta tujuannya dalam penelitian
View Item

Ketika memulai -pembuatan model Machine Learning atau suatu proyek Data Science, kita biasanya akan memulai EDA atau Exploratory Data Analysis dengan harapan menemukan pola dan wawasan yang menarik tentang data sebelum kita melanjutkan untuk mengekstrak fitur dan membangun model. Tetapi sangat umum untuk menemukan banyak nilai yang hilang (missing values) dalam data yang kita miliki. Nilai-nilai yang hilang atau Missing Values ini muncul karena banyak faktor yang berada di luar kendali kita seperti misalnya karena cara pengambilan data.

Dalam beberapa kasus, nilai tidak tersedia sama sekali untuk observasi. Meski demikian, kita tetap perlu menangani nilai-nilai yang hilang tersebut sebelum melangkah lebih jauh. Mari kita lihat cara melakukannya. Tidak ada satu teknik standar atau solusi umum untuk menangani nilai yang hilang, tetapi ada beberapa cara yang dapat kita gunakan bergantung pada kasus yang kita hadapi untuk menangani nilai yang hilang dalam data. Pada artikel ini. DQLab akan berbagi mengenai cara-cara penanganan data hilang, sebelum itu perlu untuk kita pahami apa saja jenis dari data hilang. Yuk simak penjelasannya!

1. Tipe-Tipe Missing Values / Data Hilang

Kita dapat mengklasifikasikan Missing Values dalam berbagai tipe. Setiap jenis nilai yang hilang memerlukan penanganan yang sedikit berbeda. Jenis utamanya adalah :

  1. Hilang Sepenuhnya Secara Acak (MCAR, Missing Completely At Random)

  2. Hilang Secara Acak (MAR, Missing At Random)

  3. Hilang Tidak Secara Acak (MNAR, Missing Not At Random)

Seperti namanya hilang sepenuhnya secara acak berarti bahwa tidak ada hubungan antara apakah titik data hilang dan nilai dalam kumpulan data, hilang atau diamati. Data yang hilang hanyalah subset acak dari data. Adapun hilang secara acak berarti bahwa kecenderungan nilai yang hilang memiliki hubungan sistematis dengan data yang diamati tetapi tidak dengan data yang hilang.

Artinya observasi yang hilang tidak ada sangkut pautnya dengan nilai yang hilang tetapi ada korelasi dengan variabel yang diamati. Misalnya jika Anda mengikuti survei tentang gangguan mental pada pria dan wanita, kemungkinan kecil pria akan melaporkan depresi mereka atau sebaliknya, tetapi itu tidak ada hubungannya dengan tingkat depresi mereka.Tidak ada secara acak berarti ada hubungan yang berbeda antara kecenderungan suatu nilai untuk hilang dan nilainya. Jadi dalam survei depresi kami, responden dengan nilai depresi yang lebih tinggi gagal mengisi survei karena tingkat depresi mereka.

Baca Juga : Implementasi Azure Machine Learning Studio untuk Simple Credit Approval Model using Decision Tree Bersama DQLab

2. Cara Penanganan Missing Values 1 : Menghapus Keseluruhan Baris (Row)

Cara termudah untuk menangani data hilang adalah dengan membuang kolom / baris yang datanya tidak tersedia. Perlu dicatat bahwa cara ini hanya berlaku dalam dua jenis data yang hilang pertama, MCAR dan MAR. Kedua jenis data ini secara umum, aman bagi kita untuk menghapus data dengan nilai yang hilang bergantung pada kemunculannya. sedangkan dalam kasus ketiga menghapus pengamatan dengan nilai yang hilang dapat menghasilkan bias dalam model. Perhatikan contoh penghapusan data hilang pada Melbourne Housing Dataset berikut :

Apa itu data yang hilang beserta tujuannya dalam penelitian

Kedua pendekatan tersebut memiliki kelebihan dan kekurangan masing-masing dan kita harus menganalisis kasus yang terjadi untuk memutuskan apa yang perlu dilakukan. Jika kita menghapus baris, jumlah total poin data kita untuk melatih model kita akan turun yang dapat mengurangi kinerja model. Lakukan ini hanya jika kita memiliki banyak contoh pelatihan dan baris dengan data yang hilang jumlahnya tidak terlalu tinggi.

Menghapus kolom sama sekali akan menghapus fitur dari model kita, yaitu prediksi model tidak akan bergantung pada luas bangunan. Terkadang kita dapat menghapus variabel atau kolom jika datanya hilang untuk lebih dari 60% pengamatan tetapi hanya jika variabel itu tidak signifikan. Secara umum, menghapus data bukanlah pendekatan yang baik dalam banyak kasus karena kita kehilangan banyak informasi yang berpotensi berguna. Mari kita lihat pendekatan yang lebih baik untuk menangani data yang hilang.

3. Cara Penanganan Missing Values 2 : Menghitung Nilai Pengganti (Imputation)

Ada banyak cara untuk memperhitungkan nilai pengganti data, seperti :

  1. Nilai konstanta yang merupakan bagian dari kumpulan nilai yang mungkin dari variabel itu, seperti 0, berbeda dari semua nilai lainnya

  2. Nilai rata-rata, median, atau mode untuk kolom

  3. Nilai yang diperkirakan oleh model prediktif lain

  4. Beberapa Imputasi lain

Mari perhatikan dataset yang kita miliki tadi, dan kita akan mencoba cara ini seperti berikut :

Apa itu data yang hilang beserta tujuannya dalam penelitian

Kode di atas akan menghasilkan dataset seperti ini

Apa itu data yang hilang beserta tujuannya dalam penelitian

Seperti yang dapat kita lihat, kode di atas menghubungkan nilai kolom BuildingArea dengan nilai rata-rata kolom itu. Kita dapat menggunakan fungsi fillna untuk memasukkan nilai tetap, mean, median, dll.

Baca Juga : Mendalami Array Python Dengan Mempelajari Rotation

4. Yuk Pelajari Lebih Lanjut Mengenai Data Processing Bersama DQLab!

Ingin mempelajari Python lebih dalam? Ayo mulai belajar bersama DQLab secara GRATIS! Yuk, bergabung di DQLab! Kamu bisa membangun portofolio datamu dengan belajar data science di DQLab. Untuk kamu yang ingin mulai belajar data science atau siap berkarir jadi Data Analyst, Data Scientist, dan Data Engineer, persiapkan diri kamu dengan tepat sekarang. Tidak ada kata terlambat untuk belajar. Yuk #MulaiBelajarData di DQLab.

Dengan belajar di DQLab, kamu bisa:

  • Menerapkan teknik mengolah data kotor, hasilkan visualisasi data dan model prediksi dengan studi kasus Retail dan Finansial

  • Dapatkan sesi konsultasi langsung dengan praktisi data lewat data mentoring

  • Bangun portofolio data langsung dari praktisi data Industri

  • Akses Forum DQLab untuk berdiskusi.

Simak informasi di bawah ini untuk mengakses gratis module "Introduction to Data Science":

  1. Buat Akun Gratis dengan Signup di DQLab.id/signup

  2. Akses module Introduction to Data Science

  3. Selesaikan modulenya, dapatkan sertifikat & reward menarik dari DQLab

Semangat belajar sahabat Data DQLab!

Penulis : Jihar Gifari

Editor : Annissa Widya Davita