Apa yang.dilakukan setelah data tersebut di transform

Diperbarui 21 Des 2020 - Dibaca 8 mnt

Kamu tengah menggeluti dunia data science? Apabila demikian, ETL adalah proses yang harus kamu kuasai. Akan tetapi, sudahkah kamu memahami apa itu ETL?

Selain itu, apa fungsinya? Bagaimana teknis prosesnya?

Jawabannya ada di dalam artikel ini. Simak selengkapnya, yuk!

Apa Itu ETL?

© Freepik.com

ETL adalah singkatan dari extract, transform, dan load. Melansir IBM, ia merupakan proses integrasi data.

Di sana, data akan dikombinasikan dari berbagai sumber. Setelah itu, mereka disimpan di tempat bernama data warehouse.

Dalam proses ini, kata Guru99, ada tools yang bisa kamu gunakan. Misalnya, MarkLogic, Oracle, Amazon RedShift, dan lain-lain.

Di perusahaan, orang yang bertanggung jawab atasnya merupakan ETL developer.

Baca Juga: Kupas Tuntas Perbedaan Business Intelligence dan Business Analytics

Mengapa ETL Penting?

© Freepik.com

Kamu telah memahami apa itu ETL. Lantas, mengapa proses ini begitu penting?

Nah, Xplenty punya jawabannya. Ternyata, ini sangat berkaitan dengan penerapan data science dalam bisnis. 

Ingat, di masa kini, big data adalah unsur yang penting untuk perusahaan. Berbagai pihak sangat membutuhkannya.

Departemen sales ingin tahu informasi soal pelanggan potensial? Tim pemasaran ingin mengetahui conversion rate dari suatu campaign?

ETL adalah salah satu proses yang bisa membantu mereka semua. Lewatnya, berbagai informasi bisa diambil dan dimanfaatkan.

Dengan begitu, keputusan bisnis yang tepat pun bisa dibuat. Tak ada lagi pihak yang meraba-raba dalam kegelapan atau “asal tembak”.

Terlebih lagi, ETL memungkinkan perusahaan melakukan data governance. Dengannya, informasi pun terkumpul menjadi satu, tak tercecer ke mana-mana.

Baca Juga: 10 Pertanyaan Interview Data Scientist yang Harus Kamu Ketahui

Proses dalam ETL

© Geeksforgeeks.org

Kamu telah memahami pengertian dan fungsi dari ETL. Lantas, bagaimana teknis dari proses ini?

Dirangkum dari Geeks for Geeks, penjelasan langkah dalam ETL adalah:

1. Extraction

Langkah pertama bernama extraction. Layaknya namanya, dalam proses ini, kamu mengambil data dari berbagai sumber. Misalnya, dari server SQL, XML, atau flat files

Nah, setelah diambil, kamu tak serta-merta menaruhnya di warehouse. Tempat untuk data ini adalah staging area.

Mungkin, kamu bertanya apa pentingnya langkah itu dalam ETL? Bukankah lebih cepat jika data langsung pergi ke tempat seharusnya?

Format dari data tersebut berbeda-beda. Belum lagi, ada kemungkinan informasi tersebut bersifat corrupt.

Oleh karena itu, kamu wajib menaruhnya di staging area dulu. Di sana, langkah selanjutnya pun dilakukan.

2. Transformation

Tahap ETL selanjutnya adalah transformation. Pada langkah ini, data akan diolah sehingga punya satu format yang sama.

Biasanya, ada 5 hal yang dilakukan pada data:

  • filtering, menyaring data dengan filter tertentu
  • cleaning, menyesuaikan format penulisan, misalnya “Amerika Serikat” diubah jadi “AS”
  • joining, ciri data yang serupa menjadi satu
  • splitting, memecah ciri data yang berbeda menjadi dua atau lebih
  • sorting mengurutkan data berdasarkan ciri tertentu

Dengan begitu, informasi yang didapatkan lebih rapi. Mereka pun siap menuju tahap selanjutnya.

3. Loading

Langkah terakhirnya bernama loading. Akhirnya, data yang selesai diproses masuk ke data warehouse

Kadang kala, proses ini terjadi sangat cepat. Tiap data selesai diolah, ia langsung menjalani proses loading.

Akan tetapi, kamu bisa mengatur alirannya menjadi beberapa saat sekali. Dengan begitu, tingkat keseringannya bisa kamu atur.

ETL Pipeline

© Freepik.com

Ternyata, satu data mentah tak hanya bisa menjadi satu data matang, lho. Kamu bisa “mengambil” data itu di tengah proses, lalu mengolahnya menjadi data lain.

Nama untuk proses ini adalah ETL pipeline. Ilustrasi lengkapnya ada di bawah ini.

© Geeksforgeeks.org

Misalnya, kamu sudah mengambil dan mengolah data A menjadi setengah jadi. Awalnya, data A ingin diubah menjadi data B.

Akan tetapi, kamu bisa meng-copy data ini dan mengolahnya menjadi data baru, lho. Misalnya, data A setengah jadi menjadi data C.

Baca Juga: Jangan Tertukar! Ini Perbedaan Data Analyst, Data Scientist, dan Data Engineer

Demikian informasi dari Glints soal apa itu ETL. Setelah ini, kamu tak perlu lagi merasa bingung.

ETL adalah satu dari banyak istilah data science yang ada. Masih banyak proses dan metode yang wajib kamu pelajari.

Tenang saja, ada Glints ExpertClass. Glints ExpertClass adalah sebuah kelas dengan pemateri berpengalaman.

Di sana, dunia data dan analisisnya akan dikupas tuntas. Jadi, tunggu apa lagi? Ikut kelasnya sekarang, yuk!

Bagi kamu yang bergelut dalam dunia big data analytics, pasti akan bertemu dengan istilah ETL. Agar semakin paham dengan istilah ETL, berikut adalah informasi selengkapnya dan hubungannya dengan big data. 

Apa itu ETL? Ini pengertiannya


Sistem ini adalah dasar dari pengolahan data - EKRUT

ETL atau Extract Transform Load adalah proses integrasi data yang menggabungkan data dari berbagai sumber ke dalam satu penyimpanan yang konsisten dan dimuat ke dalam gudang data atau sistem lainnya.

Singkatnya, sistem ETL adalah dasar dari pengolahan data, khususnya big data.

ETL pertama kali diperkenalkan pada tahun 1970-an untuk mengintegrasikan proses pemuatan data ke dalam superkomputer untuk dianalisis lebih lanjut. Sejak akhir 1980 hingga pertengahan 200, ETL menjadi proses utama untuk membuat gudang data yang mendukung aplikasi business intelligence (BI).

Di masa sekarang, ETL lebih direkomendasikan untuk menyimpan data yang lebih kecil dan tidak memerlukan pembaruan terlalu sering. Alternatifnya, kamu bisa menggunakan data integrasi lain, seperti ELT, CDC, dan virtualisasi data untuk mengolah data real time dan selalu berubah.

Bagaimana cara kerja ETL?


Cara kerja ETL terdiri dari 3 langkah - EKRUT

Ada tiga langkah yang bisa kamu lakukan untuk menyusun proses ETL dan membuat data terintegrasi dari sumber ke tujuan. Sesuai dengan namanya, cara kerja ETL adalah ekstraksi data, transformasi data, dan pemuatan data.

Langkah 1: ekstraksi data

Sebagian besar perusahaan mengelola data dari berbagai sumber dan menggunakan beberapa alat analisis untuk membuat business intelligence. Namun, ada juga bisnis yang hanya bergantung pada satu jenis data atau sistem.

Jika ingin membuat strategi data yang kompleks berfungsi, data yang digunakan harus bisa bergerak bebas di antara sistem dan aplikasi.

Data harus diekstrak terlebih dahulu dari sumbernya sebelum dipindahkan ke tempat yang lain. Pada langkah pertama proses ETL ini, data terstruktur dan tidak terstruktur diimpor dan dikonsolidasikan ke dalam satu wadah penyimpanan.

Data mentah dapat diekstraksi dari berbagai sumber berikut ini:

  • Database yang ada dan legacy system.
  • Cloud, hybrid, dan on-premises environments.
  • Aplikasi penjualan dan pemasaran.
  • Mobile devices dan apps.
  • CRM systems.
  • Data storage platforms.
  • Data warehouses.
  • Analytics tools.

Langkah 2: transformasi

Setelah tahap ekstraksi selesai, data perlu dipindahkan ke sistem target atau ke sistem perantara untuk diproses lebih lanjut. Langkah selanjutnya adalah proses transformasi ETL yang akan membantumu membuat gudang data terstruktur.

Transformasi ETL merupakan pembersihan dan mempersiapkan agregasi untuk analisis. Langkah ini sangat penting dalam proses ETL karena membantu memastikan data yang akan diolah sepenuhnya siap dan kompatibel.

Proses transformasi ETL terbagi menjadi beberapa proses sebagai berikut:

  • Pembersihan: data yang tidak konsisten dihilangkan.
  • Standardisasi: memasang aturan pemformatan ke kumpulan data.
  • Deduplikasi: data yang sama dibuang atau dikecualikan.
  • Verifikasi: data yang tidak dapat digunakan dihapus dan anomali ditandai.
  • Pengurutan: data diatur menurut jenisnya.
  • Tugas lainnya - aturan tambahan yang dapat meningkatkan kualitas data.

Langkah 3: loading/memuat data.

Loading adalah proses terakhir dalam ETL, yaitu memuat data yang sudah diubah ke tujuan baru. Data tersebut dapat dimuat sekaligus (full load) atau interval terjadwal (incremental load).

Full loading

Untuk full loading ETL, semua yang berasal dari transformasi menjadi catatan baru dan unik di gudang data. Full load berguna untuk menghasilkan kumpulan data yang tumbuh secara eksponensial dan sulit untuk diatur.

Incremental loading

Metode yang ini kurang komprehensif, tetapi lebih mudah dikelola. Incremental loading membandingkan data yang masuk dengan data yang sudah ada. Dan hanya akan menghasilkan data tambahan jika ditemukan data yang unik dan baru.

Itulah pengertian dan bagaimana cara kerja ETL yang wajib kamu ketahui saat belajar tentang big data analytics.

Sumber: 

  • ibm.com
  • talend.com
  • medium.com

Video yang berhubungan

Postingan terbaru

LIHAT SEMUA