Berpura-pura Menjadi Data Analis Bagian Kedua
Lanjut Berpura-pura Menjadi Data Analis, tulisan ini dibuat untuk belajar dan melatih analisa data dengan R. Bilamana ada kekurangannya silahkan berikan komentar dibawah atau langsung pull request di repository Github saya. Tulisan Berpura-pura Menjadi Data Analis Bagian Pertama dapat dibaca disini.
Masalah Awal
Untuk melanjutkan ke bagian kedua ini, saya sedikit bingung mau saya tampilkan seperti apa. Sebenarnya saya tertarik untuk dibuatkan map seperti Restaurant Business in 2020 in US, sudah install library maps tetapi ada sedikit kendala yaitu state.abb untuk Washington D.C tidak adanya hanya Washington saja. Dan ketika saya cek di Wikipedia tentang Washington dan Washington D.C sedikit berbeda. Daripada menunggu lama, saya urungkan niat untuk membuat mapnya mungkin project lain bisa.
Kode
Oke langsung saja, pada bagian kedua ini saya melakukan beberapa cleansing data dan memvisualisasikan data indpenden 100. Berikut sambungan RMarkdown bagian pertama:
Selanjutnya kita lihat perbandingan total YOY Sales antara Restoran Franchise dan tidak.
yoysalesbyfranchise <- aggregate(ft50_clean$YOY_Sales, by=list(franchising=ft50_clean$Franchising), FUN=sum)
setnames(yoysalesbyfranchise,c("Franchising","Total_YOY_Sales"))
ggplot(yoysalesbyfranchise, aes(x=Franchising, y=Total_YOY_Sales, fill=Franchising)) +
labs(title="Total YOY Sales Franchising or Not",
x ="Franchising", y = "Total YOY Sales") +
geom_bar(stat="identity", position=position_dodge()) +
theme(plot.title = element_text(hjust = 0.5))
Dari grafik tersebut, restoran yang masuk Future 50 mengindikasikan bahwa Restoran Waralaba memiliki penjualan yang cukup banyak selama pandemi ini.
Eksplore Independence 100
Sekarang kita coba eksplorasi 100 restoran independen. Tapi sebelum kita lakukan cleansing data terlebih dahulu.
### Cek data
str(ip100)
head(ip100)
Ternyata negara bagian masih menggunkan singkatan yang kurang sesuai dengan singakatan standarnya, markicek, mari kita cek.
### Cek data
ip100[, .N, State]
Ada 19 negara bagian yang harus di cleansing.
ip100_clean <- ip100
ip100_clean$State <- gsub( "\\.", "", str_squish(str_to_lower(ip100$State)))
ip100_clean[State == "calif", State := "CA"]
ip100_clean[State == "colo", State := "CO"]
ip100_clean[State == "dc", State := "DC"]
ip100_clean[State == "fla", State := "FL"]
ip100_clean[State == "ga", State := "GA"]
ip100_clean[State == "ill", State := "IL"]
ip100_clean[State == "ind", State := "IN"]
ip100_clean[State == "mass", State := "MA"]
ip100_clean[State == "mich", State := "MI"]
ip100_clean[State == "mo", State := "MO"]
ip100_clean[State == "nc", State := "NC"]
ip100_clean[State == "nj", State := "NJ"]
ip100_clean[State == "ny", State := "NY"]
ip100_clean[State == "nev", State := "NV"]
ip100_clean[State == "ore", State := "OR"]
ip100_clean[State == "pa", State := "PA"]
ip100_clean[State == "tenn", State := "TN"]
ip100_clean[State == "texas", State := "TX"]
ip100_clean[State == "va", State := "VA"]
Setelah cleansing, kita lihat summary datanya.
summary(ip100_clean)
Rata-rata penjualan dari 100 Restoran Independen adalah 17833434 dengan penjualan paling sedikit 11391678 dan penjualan paling banyak 39080335. Dan rata-rata menyajikan makanan sebanyak 317167.
Membuat plot Independen 100
Histogram persebaran 100 Restoran independen di Amerika Serikat.
sebar <- data.frame(sort(table(ip100_clean$State),decreasing = TRUE ))
setnames(sebar,c("State","Jumlah"))
ggplot(sebar, aes(x=State, y=Jumlah, fill=State)) +
geom_bar(stat="identity", position=position_dodge()) +
theme(legend.position="none", plot.title = element_text(hjust = 0.5)) +
scale_colour_brewer(type = "seq", palette = "Spectral")
salesny <-
ip100_clean %>%
filter(State == "NY")
mean(salesny$Sales)
Dari grafik tersebut, sebanyak 21 Restoran independen berada di New York dengan rata-rata penjualan 19355896.
Penutup
Untuk melihat hasil dari kode tambahan tersebut, kalian bisa baca file pdfnya disini. Oh ya, file RMarkdwon juga sedikit saya ubah untuk outputnya saya menggunakan Latex biar bagusan dikit tulisannya. Terima kasih dan sampai jumpa ditulisan selanjutnya.
Referensi Tulisan dan Dataset:
Restaurant Business Rankings 2020