Apa itu Dataframe pada python?

Halo pembaca setia Codekey! Selamat datang di tutorial ke 15 bahasa pemrograman python yang akan membahas manipulasi data dengan menggunakan python pandas dataframe. Pandas dataframe adalah salah satu alat manipulasi data yang biasa digunakan dalam bahasa pemrograman python. Agar dapat memahami dan mengikuti materi kali ini jangan lewatkan tutorial-tutorial sebelumnya. Jika sudah, yuk simak penjelasan lengkapnya!

Pandas Data Frames pada Bahasa Pemrograman Python

Apa itu Dataframe pada python?

Dalam bahasa pemrograman python Pandas adalah packages pada python yang berfungsi untuk manipulasi data tingkat tinggi, dikembangkan oleh Wes McKinney. python pandas dibangun di atas paket Numpy dan struktur data kuncinya disebut dengan DataFrame. DataFrames memungkinkan Anda untuk menyimpan dan memanipulasi data tabular dalam baris observasi dan kolom variabel.

Ada beberapa cara untuk membuat Pandas DataFrame. Salah satu caranya adalah dengan menggunakan kamus. Contohnya dapat Anda lihat pada contoh di bawah ini:

dict = {"Negara": ["Brazil", "Russia", "India", "China", "South Africa"],
       "Ibukota": ["Brasilia", "Moscow", "New Dehli", "Beijing", "Pretoria"],
       "Luas": [8.516, 17.10, 3.286, 9.597, 1.221],
       "Populasi": [200.4, 143.5, 1252, 1357, 52.98] }

import pandas as pd
daftar = pd.DataFrame(dict)
print(daftar)

Seperti yang Anda lihat pada contoh di atas, dengan daftar Pandas DataFrame baru , Panda telah menetapkan kunci untuk setiap negara sebagai nilai numerik 0 hingga 4. Jika Anda ingin memiliki nilai indeks yang berbeda, misalnya, kode negara dua huruf, Anda juga dapat melakukannya dengan mudah dengan cara seperti sintaks di bawah ini:

# membuat index terbaru didalam index
daftar.index = ["BR", "RU", "IN", "CH", "SA"]

# Mencetak daftar dengan Penambahan index terbaru
print(daftar)

Selain cara di atas, Anda juga dapat membuatnya dengan cara berbeda. Cara lain untuk membuat DataFrame adalah dengan mengimpor file csv menggunakan Pandas. Sekarang, csv cars.csv disimpan dan dapat diimpor menggunakan pd.read_csv seperti sintaks di bawah ini:

# Import pandas as pd
import pandas as pd

# Import the cars.csv data: cars
cars = pd.read_csv('cars.csv')

# Print out cars
print(cars)

Cara Mengindeks Pandas dataFrames

Ada beberapa cara yang dapat Anda lakukan untuk mengindeks Pandas DataFrame. Salah satu cara termudah untuk melakukannya adalah dengan menggunakan notasi kurung siku.

Pada contoh di bawah ini, Anda dapat menggunakan tanda kurung siku untuk memilih satu kolom cars DataFrame. Anda dapat menggunakan braket tunggal atau braket ganda. Braket tunggal akan mengeluarkan Seri Pandas, sedangkan braket ganda akan mengeluarkan Pandas DataFrame. Perhatikan sintaks di bawah ini:

Artikel Terkait  Tutorial Python 38 : Belajar Python GUI Programming

# import packages pandas dan dokumen dengan nama cars
import pandas as pd
cars = pd.read_csv('cars.csv', index_col = 0)

# mencetak kolom country pada pandas series 
print(cars['cars_per_cap'])

# mencetak kolom country menggunakan pandas dataframe
print(cars[['cars_per_cap']])

# mencetak dataframe country dan kolom drives_right
print(cars[['cars_per_cap', 'country']])

Tanda kurung siku juga dapat digunakan untuk mengakses observasi (baris) dari DataFrame. Sebagai contoh dapat Anda lihat pada sintaks berikut:

# Import data cars
import pandas as pd
cars = pd.read_csv('cars.csv', index_col = 0)

# mencetak 4 observations pertama dalam data
print(cars[0:4])

# mencetal 5 dan 6 observations
print(cars[5:6])

Anda juga dapat menggunakan loc dan iloc untuk melakukan hampir semua operasi pemilihan data. Loc berbasis label, yang berarti Anda harus menentukan baris dan kolom berdasarkan label baris dan kolomnya. Iloc adalah berbasis indeks integer, jadi Anda harus menentukan baris dan kolom dengan indeks integernya seperti yang Anda lakukan pada latihan sebelumnya. Coba Anda perhatikan sintaks di bawah ini:

# mencetak data cars
import pandas as pd
cars = pd.read_csv('cars.csv', index_col = 0)

# mencetak observations pada jepang
print(cars.iloc[2])

# mencetak observations pada Australia dan mesir
print(cars.loc[['AUS', 'EG']]

Nah itulah tutorial bahasa pemrograman python ke 15 khusus untuk Anda. Pada tutorial ini Anda telah mempelajari cara melakukan manipulasi data dengan python pandas dataframe. Tutorial ini akan memudahkan Anda dalam menyimpan dan memanipulasi data, baik tabular maupun baris dan kolom observasi.

Pandas adalah sebuah library di Python yang bersifat open source dengan lisensi BSD pandas biasa digunakan untuk menganalisis data, manipulasi data, mengubah dimensi data, mengecek data dan masih banyak lagi. Pandas memudahkan kita untuk membaca file dengan banyak format file seperti .txt, .csv, .json, dan masih banyak lagi.

Apa itu Series dan DataFrame?

Series diibaratkan sebagai array satu dimensi sama halnya dengan numpy array, hanya bedanya mempunyai index dan kita dapat mengontrol index dari setiap elemen tersebut. Sedangkan data frame merupakan array dua dimensi dengan baris dan kolom.

Apakah kegunaan Package Pandas pada Python?

Pandas adalah paket Python open source yang paling sering dipakai untuk menganalisis data serta membangun sebuah Machine Learning. Pandas dibuat berdasarkan satu package lain bernama Numpy, yang mendukung array multi dimensi.

Apa yang dimaksud dengan Numpy?

NumPy (Numerical Python) adalah library Python yang fokus pada scientific computing. Simpelnya: Numpy menyediakan fungsi yang siap pakai untuk memudahkan kita melakukan perhitungan saintifik seperti matriks, aljabar, statistik, dan sebagainya.

Apa fungsi yang digunakan untuk menampilkan jumlah baris dan kolom pada sebuah data frame?

Info() Function yang ketiga adalah info(). digunakan untuk menampilkan informasi detail tentang dataframe, seperti jumlah baris data, nama-nama kolom berserta jumlah data dan tipe datanya, dan sebagainya.