Apa yang.dilakukan setelah data tersebut di transform

Diperbarui 21 Des 2020 - Dibaca 8 mnt

Kamu tengah menggeluti dunia data science? Apabila demikian, ETL adalah proses yang harus kamu kuasai. Akan tetapi, sudahkah kamu memahami apa itu ETL?

Selain itu, apa fungsinya? Bagaimana teknis prosesnya?

Jawabannya ada di dalam artikel ini. Simak selengkapnya, yuk!

Apa Itu ETL?

ETL adalah singkatan dari extract, transform, dan load. Melansir IBM, ia merupakan proses integrasi data.

Di sana, data akan dikombinasikan dari berbagai sumber. Setelah itu, mereka disimpan di tempat bernama data warehouse.

Dalam proses ini, kata Guru99, ada tools yang bisa kamu gunakan. Misalnya, MarkLogic, Oracle, Amazon RedShift, dan lain-lain.

Di perusahaan, orang yang bertanggung jawab atasnya merupakan ETL developer.

Baca Juga: Kupas Tuntas Perbedaan Business Intelligence dan Business Analytics

Mengapa ETL Penting?

Kamu telah memahami apa itu ETL. Lantas, mengapa proses ini begitu penting?

Nah, Xplenty punya jawabannya. Ternyata, ini sangat berkaitan dengan penerapan data science dalam bisnis.

Ingat, di masa kini, big data adalah unsur yang penting untuk perusahaan. Berbagai pihak sangat membutuhkannya.

Departemen sales ingin tahu informasi soal pelanggan potensial? Tim pemasaran ingin mengetahui conversion rate dari suatu campaign?

ETL adalah salah satu proses yang bisa membantu mereka semua. Lewatnya, berbagai informasi bisa diambil dan dimanfaatkan.

Dengan begitu, keputusan bisnis yang tepat pun bisa dibuat. Tak ada lagi pihak yang meraba-raba dalam kegelapan atau “asal tembak”.

Terlebih lagi, ETL memungkinkan perusahaan melakukan data governance. Dengannya, informasi pun terkumpul menjadi satu, tak tercecer ke mana-mana.

Baca Juga: 10 Pertanyaan Interview Data Scientist yang Harus Kamu Ketahui

Proses dalam ETL

Kamu telah memahami pengertian dan fungsi dari ETL. Lantas, bagaimana teknis dari proses ini?

Dirangkum dari Geeks for Geeks, penjelasan langkah dalam ETL adalah:

1. Extraction

Langkah pertama bernama extraction. Layaknya namanya, dalam proses ini, kamu mengambil data dari berbagai sumber. Misalnya, dari server SQL, XML, atau flat files.

Nah, setelah diambil, kamu tak serta-merta menaruhnya di warehouse. Tempat untuk data ini adalah staging area.

Mungkin, kamu bertanya apa pentingnya langkah itu dalam ETL? Bukankah lebih cepat jika data langsung pergi ke tempat seharusnya?

Format dari data tersebut berbeda-beda. Belum lagi, ada kemungkinan informasi tersebut bersifat corrupt.

Oleh karena itu, kamu wajib menaruhnya di staging area dulu. Di sana, langkah selanjutnya pun dilakukan.

2. Transformation

Tahap ETL selanjutnya adalah transformation. Pada langkah ini, data akan diolah sehingga punya satu format yang sama.

Biasanya, ada 5 hal yang dilakukan pada data:

filtering, menyaring data dengan filter tertentu
cleaning, menyesuaikan format penulisan, misalnya “Amerika Serikat” diubah jadi “AS”
joining, ciri data yang serupa menjadi satu
splitting, memecah ciri data yang berbeda menjadi dua atau lebih
sorting mengurutkan data berdasarkan ciri tertentu

Dengan begitu, informasi yang didapatkan lebih rapi. Mereka pun siap menuju tahap selanjutnya.

3. Loading

Langkah terakhirnya bernama loading. Akhirnya, data yang selesai diproses masuk ke data warehouse.

Kadang kala, proses ini terjadi sangat cepat. Tiap data selesai diolah, ia langsung menjalani proses loading.

Akan tetapi, kamu bisa mengatur alirannya menjadi beberapa saat sekali. Dengan begitu, tingkat keseringannya bisa kamu atur.

ETL Pipeline

Ternyata, satu data mentah tak hanya bisa menjadi satu data matang, lho. Kamu bisa “mengambil” data itu di tengah proses, lalu mengolahnya menjadi data lain.

Nama untuk proses ini adalah ETL pipeline. Ilustrasi lengkapnya ada di bawah ini.

Misalnya, kamu sudah mengambil dan mengolah data A menjadi setengah jadi. Awalnya, data A ingin diubah menjadi data B.

Akan tetapi, kamu bisa meng-copy data ini dan mengolahnya menjadi data baru, lho. Misalnya, data A setengah jadi menjadi data C.

Baca Juga: Jangan Tertukar! Ini Perbedaan Data Analyst, Data Scientist, dan Data Engineer

Demikian informasi dari Glints soal apa itu ETL. Setelah ini, kamu tak perlu lagi merasa bingung.

ETL adalah satu dari banyak istilah data science yang ada. Masih banyak proses dan metode yang wajib kamu pelajari.

Tenang saja, ada Glints ExpertClass. Glints ExpertClass adalah sebuah kelas dengan pemateri berpengalaman.

Di sana, dunia data dan analisisnya akan dikupas tuntas. Jadi, tunggu apa lagi? Ikut kelasnya sekarang, yuk!

Bagi kamu yang bergelut dalam dunia big data analytics, pasti akan bertemu dengan istilah ETL. Agar semakin paham dengan istilah ETL, berikut adalah informasi selengkapnya dan hubungannya dengan big data.

Apa itu ETL? Ini pengertiannya

Sistem ini adalah dasar dari pengolahan data - EKRUT

ETL atau Extract Transform Load adalah proses integrasi data yang menggabungkan data dari berbagai sumber ke dalam satu penyimpanan yang konsisten dan dimuat ke dalam gudang data atau sistem lainnya.

Singkatnya, sistem ETL adalah dasar dari pengolahan data, khususnya big data.

ETL pertama kali diperkenalkan pada tahun 1970-an untuk mengintegrasikan proses pemuatan data ke dalam superkomputer untuk dianalisis lebih lanjut. Sejak akhir 1980 hingga pertengahan 200, ETL menjadi proses utama untuk membuat gudang data yang mendukung aplikasi business intelligence (BI).

Di masa sekarang, ETL lebih direkomendasikan untuk menyimpan data yang lebih kecil dan tidak memerlukan pembaruan terlalu sering. Alternatifnya, kamu bisa menggunakan data integrasi lain, seperti ELT, CDC, dan virtualisasi data untuk mengolah data real time dan selalu berubah.

Bagaimana cara kerja ETL?

Cara kerja ETL terdiri dari 3 langkah - EKRUT

Ada tiga langkah yang bisa kamu lakukan untuk menyusun proses ETL dan membuat data terintegrasi dari sumber ke tujuan. Sesuai dengan namanya, cara kerja ETL adalah ekstraksi data, transformasi data, dan pemuatan data.

Langkah 1: ekstraksi data

Sebagian besar perusahaan mengelola data dari berbagai sumber dan menggunakan beberapa alat analisis untuk membuat business intelligence. Namun, ada juga bisnis yang hanya bergantung pada satu jenis data atau sistem.

Jika ingin membuat strategi data yang kompleks berfungsi, data yang digunakan harus bisa bergerak bebas di antara sistem dan aplikasi.

Data harus diekstrak terlebih dahulu dari sumbernya sebelum dipindahkan ke tempat yang lain. Pada langkah pertama proses ETL ini, data terstruktur dan tidak terstruktur diimpor dan dikonsolidasikan ke dalam satu wadah penyimpanan.

Data mentah dapat diekstraksi dari berbagai sumber berikut ini:

Database yang ada dan legacy system.
Cloud, hybrid, dan on-premises environments.
Aplikasi penjualan dan pemasaran.
Mobile devices dan apps.
CRM systems.
Data storage platforms.
Data warehouses.
Analytics tools.

Langkah 2: transformasi

Setelah tahap ekstraksi selesai, data perlu dipindahkan ke sistem target atau ke sistem perantara untuk diproses lebih lanjut. Langkah selanjutnya adalah proses transformasi ETL yang akan membantumu membuat gudang data terstruktur.

Transformasi ETL merupakan pembersihan dan mempersiapkan agregasi untuk analisis. Langkah ini sangat penting dalam proses ETL karena membantu memastikan data yang akan diolah sepenuhnya siap dan kompatibel.

Proses transformasi ETL terbagi menjadi beberapa proses sebagai berikut:

Pembersihan: data yang tidak konsisten dihilangkan.
Standardisasi: memasang aturan pemformatan ke kumpulan data.
Deduplikasi: data yang sama dibuang atau dikecualikan.
Verifikasi: data yang tidak dapat digunakan dihapus dan anomali ditandai.
Pengurutan: data diatur menurut jenisnya.
Tugas lainnya - aturan tambahan yang dapat meningkatkan kualitas data.

Langkah 3: loading/memuat data.

Loading adalah proses terakhir dalam ETL, yaitu memuat data yang sudah diubah ke tujuan baru. Data tersebut dapat dimuat sekaligus (full load) atau interval terjadwal (incremental load).

Full loading

Untuk full loading ETL, semua yang berasal dari transformasi menjadi catatan baru dan unik di gudang data. Full load berguna untuk menghasilkan kumpulan data yang tumbuh secara eksponensial dan sulit untuk diatur.

Incremental loading

Metode yang ini kurang komprehensif, tetapi lebih mudah dikelola. Incremental loading membandingkan data yang masuk dengan data yang sudah ada. Dan hanya akan menghasilkan data tambahan jika ditemukan data yang unik dan baru.

Itulah pengertian dan bagaimana cara kerja ETL yang wajib kamu ketahui saat belajar tentang big data analytics.

Sumber:

ibm.com
talend.com
medium.com

Apa yang.dilakukan setelah data tersebut di transform

Apa Itu ETL?

Baca Juga: Kupas Tuntas Perbedaan Business Intelligence dan Business Analytics

Mengapa ETL Penting?

Baca Juga: 10 Pertanyaan Interview Data Scientist yang Harus Kamu Ketahui

Proses dalam ETL

1. Extraction

2. Transformation

3. Loading

ETL Pipeline

Baca Juga: Jangan Tertukar! Ini Perbedaan Data Analyst, Data Scientist, dan Data Engineer

Apa itu ETL? Ini pengertiannya

Bagaimana cara kerja ETL?

Langkah 1: ekstraksi data

Langkah 2: transformasi

Langkah 3: loading/memuat data.

Video yang berhubungan

Pos Terkait

Apabila suatu perusahaan membutuhkan tenaga kerja baru langkah pertama yang harus dilakukan adalah

Berapa susunan huruf yang dapat dibentuk dari huruf-huruf penyusun kata religi

Diketahui SR//PQ, OP ada berapa pasang segitiga yang kongruen? Sebutkan dan buktikan

Jelaskan kapan kita harus memilih menggandakan dokumen dengan menggunakan mesin fotocopy

Mengapa dakwah walisongo dapat diterima baik oleh penduduk

Bagaimana cara mendeskripsikan tentang time activities

Apa jenis aktivitas dan siapa pelaku aktivitas yang dapat kamu temukan pada Pasar

Perbuatan manusia yang dapat menyebabkan punahnya suatu jenis tumbuhan adalah

Apa saja sifat-sifat hak asasi manusia yang ada?

Apa maksud tanda ceklis biru di massenger

Toplist

Top 10 berikut yang bukan teknik gerak dasar dalam seni beladiri pencak silat adalah 2022

Top 10 pada gerakan guling depan, saat kaki dan tangan lurus menyentuh matras, kepala digerakkan ke arah …. 2022

Top 10 dalam sebuah kotak terdapat 10 bola yang diberi nomor 1 sampai 10. diambil sebuah bola secara acak 2022

Top 10 orbital hibrida yang digunakan oleh atom c (nomor atom = 6) untuk berikatan dengan atom o adalah 2022

Top 10 proses yang berlangsung di bagian yang ditunjukkan pada nomor 2 adalah 2022

Top 9 gambarkan model menggunakan garis sebagai gambar garis yang digunakan adalah garis lurus lengkung 2022

Top 10 pernyataan yang bukan contoh hak warga masyarakat ditunjukkan oleh nomor 2022

Top 9 bagaimana teknik melakukan lari jarak menengah supaya efektif dan efisien gerakannya 2022

Top 10 sumber daya alam di bawah ini yang termasuk sumber daya alam yang dapat diperbaharui adalah 2022

Postingan terbaru

LIHAT SEMUA