10 Memvisualisasikan proporsi
Kami sering ingin menunjukkan bagaimana beberapa kelompok, entitas, atau jumlah dipecah menjadi potongan-potongan individual yang masing-masing mewakili proporsikeseluruhan. Contoh umum termasuk proporsi pria dan wanita dalam sekelompok orang, persentase orang yang memilih partai politik yang berbeda dalam suatu pemilihan, atau pangsa pasar perusahaan. Visualisasi tipikal seperti itu adalah diagram lingkaran, di mana-mana dalam presentasi bisnis apa pun dan banyak difitnah di antara para ilmuwan data. Seperti yang akan kita lihat, memvisualisasikan proporsi dapat menjadi tantangan, khususnya ketika keseluruhannya dipecah menjadi banyak bagian yang berbeda atau ketika kita ingin melihat perubahan dalam proporsi dari waktu ke waktu atau lintas kondisi. Tidak ada visualisasi ideal tunggal yang selalu berfungsi. Untuk menggambarkan masalah ini, saya membahas beberapa skenario berbeda yang masing-masing memerlukan jenis visualisasi yang berbeda.
Ingat: Anda selalu perlu memilih visualisasi yang paling sesuai dengan dataset spesifik Anda dan yang menyoroti fitur data utama yang ingin Anda tampilkan.
10.1 Kasing pai
Dari tahun 1961 hingga 1983, parlemen Jerman (disebut Bundestag ) terdiri dari anggota tiga partai yang berbeda, CDU / CSU, SPD, dan FDP. Selama sebagian besar waktu ini, CDU / CSU dan SPD memiliki kira-kira jumlah kursi yang sebanding, sementara FDP biasanya hanya memiliki sebagian kecil kursi. Misalnya, dalam Bundestag ke-8, dari 1976-1980, CDU / CSU memiliki 243 kursi, SPD 214, dan FDP 39, dengan total 496. Data parlementer seperti itu paling sering divisualisasikan sebagai diagram lingkaran (Gambar 10.1 ).

Gambar 10.1: Komposisi partai Bundestag Jerman ke-8, 1976–1980, divisualisasikan sebagai diagram lingkaran. Visualisasi ini menunjukkan dengan jelas bahwa koalisi yang berkuasa SPD dan FDP memiliki mayoritas kecil atas CDU / CSU oposisi.
Bagan pai memecah lingkaran menjadi irisan sedemikian rupa sehingga luas setiap irisan sebanding dengan fraksi total yang diwakilinya. Prosedur yang sama dapat dilakukan pada persegi panjang, dan hasilnya adalah bagan batang bertumpuk (Gambar 10.2 ). Bergantung pada apakah kita mengiris bilah secara vertikal atau horizontal, kita memperoleh bilah yang ditumpuk secara vertikal (Gambar 10.2 a) atau bilah yang ditumpuk secara horizontal (Gambar 10.2 b).

Gambar 10.2: Komposisi partai Bundestag Jerman ke-8, 1976–1980, divisualisasikan sebagai tumpukan balok. (A) Batang ditumpuk secara vertikal. (B) Batang ditumpuk secara horizontal. Tidak segera jelas bahwa SPD dan FDP bersama-sama memiliki lebih banyak kursi daripada CDU / CSU.
Kita juga dapat mengambil batang dari Gambar 10.2 a dan menempatkannya berdampingan daripada menumpuknya di atas satu sama lain. Visualisasi ini memudahkan untuk melakukan perbandingan langsung dari ketiga kelompok, meskipun mengaburkan aspek lain dari data (Gambar 10.3 ).Yang paling penting, dalam plot bar berdampingan, hubungan masing-masing bar dengan total tidak jelas secara visual.

Gambar 10.3: Komposisi partai Bundestag Jerman ke-8, 1976–1980, divisualisasikan sebagai bilah berdampingan. Seperti pada Gambar 10.2 , tidak segera jelas bahwa SPD dan FDP bersama-sama memiliki lebih banyak kursi daripada CDU / CSU.
Banyak penulis dengan tegas menolak diagram lingkaran dan berdebat mendukung bilah berdampingan atau bertumpuk. Yang lain mempertahankan penggunaan diagram lingkaran dalam beberapa aplikasi. Pendapat saya sendiri adalah bahwa tidak satu pun dari visualisasi ini yang secara konsisten lebih unggul daripada yang lain. Bergantung pada fitur-fitur dataset dan cerita spesifik yang ingin Anda ceritakan, Anda mungkin ingin memilih satu atau beberapa pendekatan lain. Dalam kasus Bundestag Jerman ke-8, saya pikir diagram lingkaran adalah pilihan terbaik. Ini menunjukkan dengan jelas bahwa koalisi yang berkuasa SPD dan FDP bersama-sama memiliki mayoritas kecil atas CDU / CSU (Gambar 10.1 ). Fakta ini tidak jelas secara visual di plot lain mana pun (Gambar 10.2 dan 10.3 ).
Secara umum, diagram lingkaran berfungsi dengan baik ketika tujuannya adalah untuk menekankan pecahan sederhana, seperti setengah, sepertiga, atau seperempat.Mereka juga bekerja dengan baik ketika kita memiliki dataset yang sangat kecil. Bagan pai tunggal, seperti pada Gambar 10.1 , terlihat baik-baik saja, tetapi satu kolom batang bertumpuk, seperti pada Gambar 10.2 a, terlihat canggung.Bar bertumpuk, di sisi lain, dapat bekerja untuk perbandingan berdampingan dari berbagai kondisi atau dalam deret waktu, dan bar berdampingan lebih disukai ketika kita ingin secara langsung membandingkan fraksi individu satu sama lain. Ringkasan berbagai pro dan kontra dari diagram lingkaran, batang bertumpuk, dan batang berdampingan disajikan pada Tabel 10.1 .
| Pie chart | Bar bertumpuk | Bilah berdampingan | |
|---|---|---|---|
| Memvisualisasikan data dengan jelas sebagai proporsi keseluruhan | ✔ | ✔ | ✖ |
| Memungkinkan perbandingan visual yang mudah dari proporsi relatif | ✖ | ✖ | ✔ |
| Secara visual menekankan fraksi sederhana, seperti 1/2, 1/3, 1/4 | ✔ | ✖ | ✖ |
| Terlihat menarik secara visual bahkan untuk dataset yang sangat kecil | ✔ | ✖ | ✔ |
| Bekerja dengan baik ketika keseluruhannya pecah menjadi banyak bagian | ✖ | ✖ | ✔ |
| Berfungsi dengan baik untuk visualisasi banyak set proporsi atau rangkaian waktu proporsi | ✖ | ✔ | ✖ |
10.2 Wadah untuk bilah berdampingan
Saya sekarang akan menunjukkan kasus di mana diagram lingkaran gagal. Contoh ini dimodelkan setelah kritik terhadap diagram lingkaran yang awalnya diposting di Wikipedia (Wikipedia 2007 ) . Pertimbangkan skenario hipotetis lima perusahaan, A, B, C, D, dan E, yang semuanya memiliki pangsa pasar yang kira-kira sebanding sekitar 20%. Dataset hipotetis kami mencantumkan pangsa pasar masing-masing perusahaan selama tiga tahun berturut-turut. Ketika kita memvisualisasikan dataset ini dengan diagram lingkaran, sulit untuk melihat apa yang sebenarnya terjadi (Gambar 10.4 ).Tampaknya pangsa pasar perusahaan A sedang tumbuh dan perusahaan E sedang menyusut, tetapi di luar pengamatan ini, kami tidak bisa memastikan apa yang sedang terjadi.Secara khusus, tidak jelas bagaimana tepatnya pangsa pasar dari perusahaan yang berbeda dibandingkan dalam setiap tahun.

Gambar 10.4: Pangsa pasar lima perusahaan hipotetis, A – E, untuk tahun 2015–2017, divisualisasikan sebagai diagram lingkaran. Visualisasi ini memiliki dua masalah utama: 1. Perbandingan pangsa pasar relatif dalam beberapa tahun hampir tidak mungkin. 2. Perubahan dalam pangsa pasar sepanjang tahun sulit untuk dilihat.
Gambar menjadi sedikit lebih jelas ketika kita beralih ke bilah bertumpuk (Gambar 10.5 ). Sekarang tren pangsa pasar yang tumbuh untuk perusahaan A dan pangsa pasar yang menyusut untuk perusahaan E terlihat jelas. Namun, pangsa pasar relatif dari lima perusahaan dalam setiap tahun masih sulit untuk dibandingkan. Dan sulit untuk membandingkan pangsa pasar perusahaan B, C, dan D selama bertahun-tahun, karena batangan digeser relatif satu sama lain selama bertahun-tahun. Ini adalah masalah umum dari plot bar-stack, dan alasan utama mengapa saya biasanya tidak merekomendasikan jenis visualisasi ini.

Gambar 10.5: Pangsa pasar lima perusahaan hipotetis untuk tahun 2015-2017, divisualisasikan sebagai tumpukan balok. Visualisasi ini memiliki dua masalah utama: 1. Perbandingan pangsa pasar relatif dalam beberapa tahun sulit. 2. Perubahan dalam pangsa pasar lintas tahun sulit dilihat untuk perusahaan menengah B, C, dan D, karena lokasi batang berubah sepanjang tahun.
Untuk set data hipotetis ini, bar berdampingan adalah pilihan terbaik (Gambar 10.6 ). Visualisasi ini menggarisbawahi bahwa kedua perusahaan A dan B telah meningkatkan pangsa pasar mereka dari 2015 hingga 2017 sementara kedua perusahaan D dan E telah mengurangi pangsa mereka. Ini juga menunjukkan bahwa pangsa pasar meningkat secara berurutan dari perusahaan A ke E pada 2015 dan juga menurun pada 2017.

Gambar 10.6: Pangsa pasar dari lima perusahaan hipotetis untuk tahun 2015–2017, divisualisasikan sebagai bar berdampingan.
10.3 Kasing untuk batang bertumpuk dan kepadatan bertumpuk
Di Bagian 10.2 , saya menulis bahwa saya biasanya tidak merekomendasikan urutan bar bertumpuk, karena lokasi bar internal bergeser sepanjang urutan. Namun, masalah pemindahan bilah internal menghilang jika hanya ada dua bilah di setiap tumpukan, dan dalam kasus tersebut visualisasi yang dihasilkan bisa sangat jelas. Sebagai contoh, pertimbangkan proporsi perempuan di parlemen nasional suatu negara. Kami akan secara khusus melihat negara Afrika, Rwanda, yang pada 2016 menduduki peringkat teratas negara-negara dengan proporsi anggota parlemen perempuan tertinggi. Rwanda telah memiliki parlemen perempuan mayoritas sejak 2008, dan sejak 2013 hampir dua pertiga dari anggota parlemennya adalah perempuan. Untuk memvisualisasikan bagaimana proporsi perempuan di parlemen Rwanda telah berubah dari waktu ke waktu, kita dapat menggambar urutan grafik batang yang ditumpuk (Gambar 10.7 ). Gambar ini memberikan representasi visual langsung dari proporsi yang berubah dari waktu ke waktu.Untuk membantu pembaca melihat persis ketika mayoritas berubah menjadi perempuan, saya telah menambahkan garis horizontal putus-putus di 50%. Tanpa garis ini, hampir tidak mungkin untuk menentukan apakah dari tahun 2003 hingga 2007 mayoritas adalah laki-laki atau perempuan. Saya belum menambahkan baris serupa pada 25% dan 75%, untuk menghindari membuat angka terlalu berantakan.

Gambar 10.7: Perubahan komposisi gender parlemen Rwanda dari waktu ke waktu, 1997 hingga 2016. Sumber data: Inter-Parliamentary Union (IPU), ipu.org.
Jika kita ingin memvisualisasikan bagaimana proporsi berubah sebagai respons terhadap variabel kontinu, kita dapat beralih dari batang bertumpuk ke kepadatan bertumpuk. Kepadatan yang ditumpuk dapat dianggap sebagai kasus pembatas dari banyak bar bertumpuk kecil tak terhingga yang disusun berdampingan. Kepadatan dalam plot kepadatan-ditumpuk biasanya diperoleh dari estimasi kepadatan kernel, seperti yang dijelaskan dalam Bab 7 , dan saya merujuk Anda ke bab itu untuk diskusi umum tentang kekuatan dan kelemahan metode ini.
Untuk memberikan contoh di mana kepadatan yang ditumpuk mungkin sesuai, pertimbangkan status kesehatan orang sebagai fungsi usia. Umur dapat dianggap sebagai variabel kontinu, dan memvisualisasikan data dengan cara ini bekerja cukup baik (Gambar 10.8 ). Meskipun kami memiliki empat kategori kesehatan di sini, dan saya biasanya bukan penggemar yang menumpuk banyak kondisi, seperti yang dibahas di atas, saya pikir dalam hal ini angka tersebut dapat diterima. Kita dapat melihat dengan jelas bahwa kesehatan secara keseluruhan menurun seiring bertambahnya usia, dan kita juga dapat melihat bahwa di samping kecenderungan ini, lebih dari setengah populasi tetap dalam kesehatan yang baik atau sangat baik sampai usia yang sangat tua.

Gambar 10.8: Status kesehatan berdasarkan usia, seperti yang dilaporkan oleh survei sosial umum (GSS).
Namun demikian, angka ini memiliki batasan utama: Dengan memvisualisasikan proporsi dari empat kondisi kesehatan sebagai persen dari total, angka tersebut mengaburkan bahwa ada lebih banyak orang muda daripada orang tua dalam dataset. Dengan demikian, meskipun persentase orang yang melaporkan kesehatannya tetap tidak berubah sepanjang usia selama tujuh dekade, jumlah absolut orang dalam kesehatan yang baik menurun karena jumlah orang pada usia tertentu menurun. Saya akan menyajikan solusi potensial untuk masalah ini di bagian selanjutnya.
10.4 Memvisualisasikan proporsi secara terpisah sebagai bagian dari total
Bar berdampingan memiliki masalah bahwa mereka tidak secara jelas memvisualisasikan ukuran masing-masing bagian relatif terhadap keseluruhan dan bar bertumpuk memiliki masalah bahwa bar yang berbeda tidak dapat dibandingkan dengan mudah karena mereka memiliki garis dasar yang berbeda. Kita dapat menyelesaikan dua masalah ini dengan membuat plot terpisah untuk setiap bagian dan dalam setiap plot menunjukkan masing-masing bagian relatif terhadap keseluruhan. Untuk dataset kesehatan pada Gambar 10.8 , prosedur ini menghasilkan Gambar 10.9 .Distribusi usia keseluruhan dalam dataset ditampilkan sebagai area abu-abu yang diarsir, dan distribusi usia untuk setiap status kesehatan ditunjukkan dengan warna biru.Angka ini menggarisbawahi bahwa secara absolut, jumlah orang dengan kesehatan yang baik atau baik menurun pada usia 30-40 tahun terakhir, sementara jumlah orang dengan kesehatan yang baik tetap konstan di semua usia.

Gambar 10.9: Status kesehatan berdasarkan usia, ditunjukkan sebagai proporsi dari jumlah total orang yang disurvei. Daerah berwarna menunjukkan perkiraan kepadatan usia orang dengan status kesehatan masing-masing dan daerah abu-abu menunjukkan distribusi usia secara keseluruhan.
Untuk memberikan contoh kedua, mari kita pertimbangkan variabel yang berbeda dari survei yang sama: status perkawinan. Status perkawinan berubah jauh lebih drastis seiring bertambahnya usia daripada status kesehatan, dan plot kepadatan status perkawinan vs usia tidak terlalu mencerahkan (Gambar 10.10 ).

Gambar 10.10: Status perkawinan berdasarkan usia, sebagaimana dilaporkan oleh survei sosial umum (GSS). Untuk menyederhanakan angka, saya telah menghapus sejumlah kecil kasus yang dilaporkan terpisah. Saya telah menyebut angka ini sebagai "buruk" karena frekuensi orang yang belum pernah menikah atau menjadi janda berubah secara drastis seiring bertambahnya usia sehingga distribusi usia orang yang menikah dan bercerai sangat terdistorsi dan sulit ditafsirkan.
Dataset yang sama divisualisasikan sebagai densitas parsial jauh lebih jelas (Gambar 10.11 ). Secara khusus, kita melihat bahwa proporsi orang yang menikah mencapai puncaknya pada akhir 30-an, proporsi orang yang bercerai mencapai sekitar awal 40-an, dan proporsi orang yang janda mencapai puncak sekitar pertengahan 70-an.

Gambar 10.11: Status perkawinan berdasarkan usia, ditunjukkan sebagai proporsi dari jumlah total orang yang disurvei. Daerah berwarna menunjukkan perkiraan kepadatan usia orang dengan status perkawinan masing-masing, dan daerah abu-abu menunjukkan distribusi usia secara keseluruhan.
Namun, satu kelemahan dari Gambar 10.11 adalah bahwa representasi ini tidak membuatnya mudah untuk menentukan proporsi relatif pada suatu titik waktu tertentu. Sebagai contoh, jika kita ingin tahu pada usia berapa lebih dari 50% dari semua orang yang disurvei menikah, kita tidak dapat dengan mudah mengetahui dari Gambar 10.11 . Untuk menjawab pertanyaan ini, kita dapat menggunakan jenis tampilan yang sama tetapi menunjukkan proporsi relatif alih-alih jumlah absolut sepanjang sumbu y (Gambar 10.12 ).Sekarang kita melihat bahwa orang-orang yang menikah sebagian besar dimulai pada akhir usia 20-an, dan orang-orang yang janda berada pada mayoritas dimulai pada pertengahan 70-an.

Gambar 10.12: Status pernikahan berdasarkan usia, ditunjukkan sebagai proporsi dari jumlah total orang yang disurvei. Area berwarna biru menunjukkan persentase orang pada usia tertentu dengan status masing-masing, dan area berwarna abu-abu menunjukkan persentase orang dengan semua status perkawinan lainnya.
Referensi
Wikipedia, Pengguna: Schutz. 2007. "File: Piecharts.svg."https://en.wikipedia.org/wiki/File:Piecharts.svg
