R programming itu mudah.
Memulai bahasa R tidak
bisa lepas dari Statistik, karena awalnya bahasa R dipakai untuk mengolah data
statistik dan science, seiring perjalannanya bahasa R berkembang sangat pesat,
dan sangat dibutuhkan untuk mengolah data dalam kehidupan nyata.
Install R studio bisa di sini.
Sebelum melangkah ke
bahasa R itu sendiri, kita perlu mengerti istilah dasar statistik sbb:
STATISTIKA adalah
kumpulan metoda yang digunakan untuk merencanakan eksperimen, mengambil data,
dan kemudian menyusun, meringkas, menyajikan, menganalisa, menginterpretasikan
dan mengambil kesimpulan yang didasarkan pada data tersebut.
1.STATISTIK DESKRIPTIV yaitu berkaitan dengan kegiatan pencatatan dan peringkasan hasil-hasil pengamatan terhadap kejadian-kejadian atau karakteristik-karakteristik
manusia, tempat dan sebagainya, secara kuantitatif
2.STATISTIK IFERENSIAL yaitu metode-metode untuk menganalisis sampel dari populasi sehingga dapat ditarik kesimpulan tentang populasi dari sampel tersebut.
3. POPULASI adalah keseluruhan objek psikologis yang menjadi perhatian.
Contoh Jumlah Jumlah penduduk Indonesia saat ini 260jt jiwa
4.SAMPLE adalah himpunan bagian dari populasi.
Contoh, diambil sample random sejumlah 30% dari 260jt, 30%X260jt
5.
6.POPULASI adalah koleksi lengkap semua elemen yang akan diselidiki. Suatu koleksi dikatakan lengkap jika ia memuat semua subjek yang akan diselidiki.
7.SENSUS adalah koleksi data dari semua anggota dalam populasi.
8.STATISTIKA DESKRIPTIF adalah statistika yang berkaitan dengan analisis dan deskripsi suatu grup sebagai populasinya, tanpa melakukan penarikan kesimpulan apapun untuk komunitas yang lebih luas dari grup tersebut.
9.STATISTIKA INFERENSI adalah statistika yang mencoba untuk membuat suatu deduksi atau kesimpulan pada populasi dengan menggunakan sampel dari populasi tersebut.
10.PARAMETER adalah sembarang nilai yang menjelaskan ciri populasi
11. HIMPUNAN DATA adalah kumpulan dari fakta yang dikumpulkan untuk maksudtertentu.
12. DATA DISKRIT : data yang diperoleh dari proses hitungan
13. DATA KONTINYU : data yang diperoleh dari proses pengukuran
14. VARIABELl : sebuah karakteristik yang dapat diperoleh dari berbagai kemungkinan hasil yang berbeda-beda.
15. VARIABEL KUANTITATIV: variabel yang hasilnya berupa angka
16. VARIABEL KUALITATIV : variabel yang hasilnya hanya atribut.
17. OBSERVASI : informasi tentang sebuah variabel tunggal untuk sebuah anggota dari sekumpulan data
Istilah diatas bagi
yang pernah belajar di SMA baik IPA/ IPS
pasti sudah tahu. Jadi kapan lagi mencoba bahasa R.
Saya akan berikan contoh script R sbb:
library(dplyr) #untuk perhitungan
library(ggplot2) #plot grafik
#Baca data dari
hardisk
data_awal <- read.csv("d:/bahan-blog/spm3.csv")
#Dimensi data
dim(data_awal)
1] 5479 10
Jumlah baris 5479,
kolom 10
#spm3.csv, adalah data
retail excel yang yang disimpan dalam hardisk, yang memuat jumlah penjualan
dalam format csv, di simpan dalam hardisk local d:/bahan-blog
#Baca isi data
head(data_awal)
year month date_of_month day_of_week
mieinstant rokok kopi aqua roti susu
1 2000 1 1 6 9083 1290 1000 900 800 700
2 2000 1 2 7 8006 1300 1300 1200 900 900
3 2000 1 3 1 13032 1000 1000 1000 1000 950
4 2000 1 4 2 12558 900 900 900 700 700
5 2000 1 5 3 10889
200 100 100 100 100
6 2000 1 6 4 9887
500 500 500 500 500
#baca variable data
str(data_awal)
'data.frame': 5479 obs. of 10 variables:
$ year
: int
2000 2000 2000 2000 2000 2000 2000 2000 2000 2000 ...
$ month
: int
1 1 1 1 1 1 1 1 1 1 ...
$ date_of_month: int 1 2 3 4 5 6 7 8 9 10 ...
$ day_of_week : int
6 7 1 2 3 4 5 6 7 1 ...
$ mieinstant
: int 9083 8006 13032 12558 10889 9887 8777 8934
7949 13042 ...
$ rokok
: int
1290 1300 1000 900 200 500 1200 1000 1300 300 ...
$ kopi
: int
1000 1300 1000 900 100 500 1200 1000 1200 300 ...
$ aqua
: int
900 1200 1000 900 100 500 1300 1000 1200 300 ...
$ roti : int 800 900 1000 700 100 500 1300 1000 1200 300
...
$ susu
: int
700 900 950 700 100 500 1300 1000 1200 300 ...
# Menhitung rata2
penjualan mieinstant/bulan selama th 2000
mean_mieinstant_perbulan <- data_awal %>%
group_by(year,month)
%>%
filter(year==2000)
%>%
group_by(month) %>%
summarise(mieinstant =
mean(mieinstant))
head(mean_mieinstant_perbulan)
# A tibble: 6 x 2
month mieinstant
<int> <dbl>
1 1
9973.
2 2
9988.
3 3
9898.
4 4
9879.
5 5
10656.
6 6
10897.
# Grafik rata rata
penjualan mieinstan th 2000
grafik_mean_mieinstant_perbulan <- ggplot(mean_mieinstant_perbulan, aes(x =
month, y = mieinstant)) +
geom_bar(stat =
"identity") +
ggtitle("Rata
rata penjualan mieinstan th 2000")
grafik_mean_mieinstant_perbulan
#Menghitung jumlah
rata2 penjualan rokok/bulan th 2000
mean_rokok_perbulan <- data_awal %>%
group_by(year,month)
%>%
filter(year==2000)
%>%
group_by(month) %>%
summarise(rokok =
mean(rokok))
head(mean_rokok_perbulan)
# A tibble: 6 x 2
month rokok
<int> <dbl>
1 1
819.
2 2
888.
3 3
888.
4 4 1086.
5 5
924.
6 6
999.
# Grafik rata2
penjualan rokok per bulan th 2000
grafik_mean_rokok_perbulan <-
ggplot(mean_rokok_perbulan, aes(x = month, y = rokok)) +
geom_bar(stat =
"identity") +
ggtitle("Rata
rata penjualan rokok th 2000")
grafik_mean_rokok_perbulan
Ini adalah bagian script dari sebuah Analisa, mudah kan.
Kesimpulan.
1. Bahasa R itu brain friendly alias ramah otak, artinya tidak akan membuat otak anda jebol.
2. Cukup menguasai dasar Statistik, latihan coding, praktekan!
3. Triknya, banyak latihan, latihan membuat logika anda terasah, logika yang matang akan memudahkan analisa, pengalaman menganalisa jadi modal menuju data scientist.