Jumlah yang divisualisasikan

6 Jumlah yang divisualisasikan

Dalam banyak skenario, kami tertarik pada besarnya beberapa set angka. Misalnya, kami mungkin ingin memvisualisasikan total volume penjualan berbagai merek mobil, atau jumlah total orang yang tinggal di kota yang berbeda, atau usia olimpiade yang melakukan olahraga yang berbeda. Dalam semua kasus ini, kami memiliki seperangkat kategori (misalnya, merek mobil, kota, atau olahraga) dan nilai kuantitatif untuk setiap kategori. Saya menyebut kasus-kasus ini sebagai jumlah yang memvisualisasikan, karena penekanan utama dalam visualisasi ini adalah pada besarnya nilai-nilai kuantitatif. Visualisasi standar dalam skenario ini adalah plot bar, yang datang dalam beberapa variasi, termasuk bar sederhana serta bar yang dikelompokkan dan disusun. Alternatif untuk plot bar adalah plot titik dan peta panas.

6.1 plot Bar

Untuk memotivasi konsep plot bar, pertimbangkan total penjualan tiket untuk film paling populer di akhir pekan tertentu. Tabel 6.1 menunjukkan penjualan tiket kotor akhir pekan lima teratas pada akhir pekan Natal 2017. Film "Star Wars: The Last Jedi" sejauh ini merupakan film paling populer pada akhir pekan itu, mengalahkan film peringkat empat dan kelima "The Penampil terhebat ”dan“ Ferdinand ”dengan hampir 10 faktor.
Tabel 6.1: Film terlaris tertinggi untuk akhir pekan 22-24 Desember 2017. Sumber data: Box Office Mojo ( http://www.boxofficemojo.com/ ). Digunakan dengan izin
PangkatJudulGross akhir pekan
1Star Wars: The Last Jedi$ 71.565.498
2Jumanji: Selamat datang di Hutan$ 36,169,328
3Pitch Perfect 3$ 19.928.525
4The Greatest Showman$ 8,805,843
5Ferdinand$ 7.316.746
Jenis data ini biasanya divisualisasikan dengan bilah vertikal.Untuk setiap film, kami menggambar sebuah bar yang dimulai dari nol dan meluas sampai ke nilai dolar untuk bruto akhir pekan film tersebut (Gambar 6.1 ). Visualisasi ini disebut diagram batang atau diagram batang .
Film terlaris tertinggi untuk akhir pekan 22-24 Desember 2017, ditampilkan sebagai plot bar. Sumber data: Box Office Mojo (http://www.boxofficemojo.com/). Digunakan dengan izin
Gambar 6.1: Film terlaris tertinggi untuk akhir pekan 22-24 Desember 2017, ditampilkan sebagai plot bar. Sumber data: Box Office Mojo ( http://www.boxofficemojo.com/ ). Digunakan dengan izin
Satu masalah yang biasa kita temui dengan bilah vertikal adalah label yang mengidentifikasi setiap bilah membutuhkan banyak ruang horizontal. Bahkan, saya harus membuat Gambar 6.1 cukup lebar dan melebar sehingga saya bisa menempatkan judul film di bawahnya. Untuk menghemat ruang horisontal, kita bisa menempatkan bar lebih dekat dan memutar label (Gambar 6.2 ). Namun, saya bukan pendukung besar label yang diputar. Saya menemukan plot yang dihasilkan canggung dan sulit dibaca. Dan, menurut pengalaman saya, setiap kali label terlalu panjang untuk ditempatkan secara horizontal mereka juga tidak terlihat bagus dirotasi.
Film terlaris tertinggi untuk akhir pekan 22-24 Desember 2017, ditampilkan sebagai plot bar dengan label centang sumbu yang diputar. Label centang sumbu yang diputar cenderung sulit dibaca dan membutuhkan penggunaan ruang yang canggung di bawah plot. Untuk alasan ini, saya biasanya menganggap plot dengan label centang yang diputar jelek. Sumber data: Box Office Mojo (http://www.boxofficemojo.com/). Digunakan dengan izin
Gambar 6.2: Film terlaris tertinggi untuk akhir pekan 22-24 Desember 2017, ditampilkan sebagai plot batang dengan label centang sumbu yang diputar. Label centang sumbu yang diputar cenderung sulit dibaca dan membutuhkan penggunaan ruang yang canggung di bawah plot. Untuk alasan ini, saya biasanya menganggap plot dengan label centang yang diputar jelek. Sumber data: Box Office Mojo ( http://www.boxofficemojo.com/ ). Digunakan dengan izin
Solusi yang lebih baik untuk label panjang biasanya dengan menukar sumbu x dan sumbu y , sehingga batang berjalan secara horizontal (Gambar 6.3 ). Setelah menukar sumbu, kami memperoleh gambar ringkas di mana semua elemen visual, termasuk semua teks, berorientasi horizontal.Akibatnya, angka tersebut jauh lebih mudah dibaca daripada Gambar 6.2 atau bahkan Gambar 6.1 .
Film terlaris tertinggi untuk akhir pekan 22-24 Desember 2017, ditampilkan sebagai plot bar horizontal. Sumber data: Box Office Mojo (http://www.boxofficemojo.com/). Digunakan dengan izin
Gambar 6.3: Film terlaris tertinggi untuk akhir pekan 22-24 Desember 2017, ditampilkan sebagai plot batang horizontal. Sumber data: Box Office Mojo ( http://www.boxofficemojo.com/ ). Digunakan dengan izin
Terlepas dari apakah kita menempatkan bar secara vertikal atau horizontal, kita perlu memperhatikan urutan pengaturan bar. Saya sering melihat plot bar di mana bar disusun secara sewenang-wenang atau dengan beberapa kriteria yang tidak bermakna dalam konteks gambar. Beberapa program merencanakan mengatur bar secara default dalam urutan alfabet label, dan lainnya, pengaturan yang sewenang-wenang juga dimungkinkan (Gambar 6.4 ). Secara umum, angka-angka yang dihasilkan lebih membingungkan dan kurang intuitif daripada angka-angka di mana bar disusun sesuai ukurannya.
Film terlaris tertinggi untuk akhir pekan 22-24 Desember 2017, ditampilkan sebagai plot bar horizontal. Di sini, bar telah ditempatkan dalam urutan panjang judul film. Susunan batang ini sewenang-wenang, tidak melayani tujuan yang berarti, dan itu membuat angka yang dihasilkan jauh kurang intuitif daripada Gambar 6.3. Sumber data: Box Office Mojo (http://www.boxofficemojo.com/). Digunakan dengan izin
Gambar 6.4: Film terlaris tertinggi untuk akhir pekan 22-24 Desember 2017, ditampilkan sebagai plot batang horizontal. Di sini, bar telah ditempatkan dalam urutan panjang judul film. Susunan bilah ini arbitrer, tidak melayani tujuan yang bermakna, dan itu membuat angka yang dihasilkan jauh kurang intuitif daripada Gambar 6.3 . Sumber data: Box Office Mojo ( http://www.boxofficemojo.com/ ). Digunakan dengan izin
Namun, kami hanya perlu mengatur ulang bar, ketika tidak ada pemesanan alami untuk kategori yang diwakili bar. Setiap kali ada pemesanan alami (yaitu, ketika variabel kategori kami adalah faktor pesanan) kami harus mempertahankan pemesanan itu dalam visualisasi. Sebagai contoh, Gambar 6.5 menunjukkan median pendapatan tahunan di AS berdasarkan kelompok umur. Dalam hal ini, palang harus disusun sesuai dengan bertambahnya usia. Mengurutkan berdasarkan tinggi batang sambil mengocok kelompok usia tidak masuk akal (Gambar 6.6 ).
Pendapatan rumah tangga tahunan rata-rata A.S. versus kelompok umur. Kelompok usia 45-54 tahun memiliki pendapatan rata-rata tertinggi. Sumber data: Biro Sensus Amerika Serikat
Gambar 6.5: Pendapatan rumah tangga tahunan rata-rata AS versus kelompok umur. Kelompok usia 45-54 tahun memiliki pendapatan rata-rata tertinggi. Sumber data: Biro Sensus Amerika Serikat
Median pendapatan rumah tangga tahunan AS versus kelompok usia 2016, diurutkan berdasarkan pendapatan. Sementara urutan bilah ini terlihat menarik secara visual, urutan kelompok umur sekarang membingungkan. Sumber data: Biro Sensus Amerika Serikat
Gambar 6.6: 2016 median pendapatan rumah tangga tahunan AS versus kelompok umur, diurutkan berdasarkan pendapatan. Sementara urutan bilah ini terlihat menarik secara visual, urutan kelompok umur sekarang membingungkan. Sumber data: Biro Sensus Amerika Serikat
Perhatikan urutan bar. Jika bilah mewakili kategori tidak berurutan, pesanlah dengan naik atau turun nilai data.

6.2 Bar dikelompokkan dan ditumpuk

Semua contoh dari subbagian sebelumnya menunjukkan bagaimana jumlah kuantitatif bervariasi sehubungan dengan satu variabel kategori. Namun, sering kali, kami tertarik pada dua variabel kategori pada saat yang bersamaan. Misalnya, Biro Sensus AS memberikan tingkat pendapatan rata-rata yang dikelompokkan berdasarkan usia dan ras. Kami dapat memvisualisasikan dataset ini dengan plot bar yang dikelompokkan (Gambar 6.7 ). Dalam plot batang yang dikelompokkan, kami menggambar sekelompok batang di setiap posisi sepanjang sumbu x , ditentukan oleh satu variabel kategori, dan kemudian kami menggambar batang di dalam setiap grup sesuai dengan variabel kategori lainnya.
Rata-rata pendapatan rumah tangga tahunan A.S. versus kelompok umur dan ras. Kelompok usia ditunjukkan di sepanjang sumbu x, dan untuk setiap kelompok umur ada empat batang, sesuai dengan pendapatan rata-rata orang Asia, kulit putih, Hispanik, dan kulit hitam. Sumber data: Biro Sensus Amerika Serikat
Gambar 6.7: Pendapatan rumah tangga tahunan rata-rata AS versus kelompok umur dan ras. Kelompok usia ditunjukkan di sepanjang sumbu x , dan untuk setiap kelompok umur ada empat batang, sesuai dengan pendapatan rata-rata orang Asia, kulit putih, Hispanik, dan kulit hitam.Sumber data: Biro Sensus Amerika Serikat
Plot bar yang dikelompokkan menunjukkan banyak informasi sekaligus dan dapat membingungkan. Bahkan, meskipun saya belum memberi label Gambar 6.7 sebagai buruk atau jelek, saya merasa sulit untuk membaca. Secara khusus, sulit untuk membandingkan pendapatan rata-rata antar kelompok umur untuk kelompok ras tertentu. Jadi angka ini hanya sesuai jika kita terutama tertarik pada perbedaan tingkat pendapatan di antara kelompok ras, secara terpisah untuk kelompok umur tertentu. Jika kita lebih peduli tentang pola keseluruhan tingkat pendapatan di antara kelompok ras, mungkin lebih baik untuk menunjukkan ras di sepanjang sumbu x dan menunjukkan usia sebagai bilah yang berbeda dalam setiap kelompok ras (Gambar 6.8 ).
Rata-rata pendapatan rumah tangga tahunan A.S. versus kelompok umur dan ras. Berbeda dengan Gambar 6.7, sekarang perlombaan diperlihatkan di sepanjang sumbu x, dan untuk setiap perlombaan kami menunjukkan tujuh batang sesuai dengan tujuh kelompok umur. Sumber data: Biro Sensus Amerika Serikat
Gambar 6.8: Pendapatan rumah tangga tahunan rata-rata AS versus kelompok umur dan ras. Berbeda dengan Gambar 6.7 , sekarang perlombaan diperlihatkan di sepanjang sumbu x , dan untuk setiap perlombaan kami menunjukkan tujuh batang sesuai dengan tujuh kelompok umur. Sumber data: Biro Sensus Amerika Serikat
Baik Gambar 6.7 dan 6.8 mengkodekan satu variabel kategori dengan posisi sepanjang sumbu x dan lainnya dengan warna bar. Dan dalam kedua kasus tersebut, pengodean menurut posisi mudah dibaca sedangkan pengodean dengan warna bilah memerlukan upaya mental yang lebih, karena kita harus mencocokkan warna bilah secara mental dengan warna dalam legenda. Kita dapat menghindari upaya mental tambahan ini dengan menunjukkan empat plot bar terpisah yang terpisah daripada satu plot bar yang dikelompokkan (Gambar 6.9 ). Yang mana dari berbagai pilihan yang kita pilih ini akhirnya adalah masalah selera. Saya mungkin akan memilih Gambar 6.9 , karena menghindari kebutuhan untuk warna bar yang berbeda.
Rata-rata pendapatan rumah tangga tahunan A.S. versus kelompok umur dan ras. Alih-alih menampilkan data ini sebagai plot bar yang dikelompokkan, seperti pada Gambar 6.7 dan 6.8, kami sekarang menampilkan data sebagai empat plot bar terpisah yang terpisah. Pilihan ini memiliki keuntungan bahwa kita tidak perlu menyandikan salah satu variabel kategori dengan warna batang. Sumber data: Biro Sensus Amerika Serikat
Gambar 6.9: Pendapatan rumah tangga tahunan rata-rata AS versus kelompok umur dan ras. Alih-alih menampilkan data ini sebagai plot bar yang dikelompokkan, seperti pada Gambar 6.7 dan 6.8 , kami sekarang menampilkan data sebagai empat plot bar terpisah yang terpisah. Pilihan ini memiliki keuntungan bahwa kita tidak perlu menyandikan salah satu variabel kategori dengan warna batang. Sumber data: Biro Sensus Amerika Serikat
Alih-alih menggambar kelompok bar berdampingan, kadang-kadang lebih disukai untuk menumpuk bar di atas satu sama lain. Penumpukan berguna ketika jumlah dari jumlah yang diwakili oleh masing-masing batang yang ditumpuk itu sendiri merupakan jumlah yang berarti. Jadi, meskipun tidak masuk akal untuk menumpuk nilai pendapatan median pada Gambar 6.7 (jumlah dari dua nilai median bukan nilai yang berarti), mungkin masuk akal untuk menumpuk nilai bruto akhir pekan pada Gambar 6.1 (jumlah dari nilai kotor akhir pekan dari dua film adalah total kotor untuk dua film yang digabungkan). Penumpukan juga sesuai ketika bilah individual mewakili jumlah. Misalnya, dalam kumpulan data orang, kita dapat menghitung pria dan wanita secara terpisah atau kita dapat menghitungnya bersama. Jika kita menumpuk bilah yang mewakili jumlah perempuan di atas bilah yang mewakili jumlah laki-laki, maka tinggi batang gabungan mewakili jumlah total orang tanpa memandang jenis kelamin.
Saya akan mendemonstrasikan prinsip ini menggunakan dataset tentang penumpang kapal samudra transatlantik Titanic, yang tenggelam pada 15 April 1912. Di atas kapal ada sekitar 1.300 penumpang, belum termasuk kru. Para penumpang bepergian dalam satu dari tiga kelas (1, 2, atau 3), dan ada hampir dua kali lebih banyak laki-laki daripada penumpang perempuan di kapal. Untuk memvisualisasikan rincian penumpang berdasarkan kelas dan jenis kelamin, kita dapat menggambar bar terpisah untuk setiap kelas dan gender dan menumpuk bar yang mewakili wanita di atas bar yang mewakili pria, secara terpisah untuk setiap kelas (Gambar 6.10 ). Bar gabungan mewakili jumlah total penumpang di setiap kelas.
Jumlah penumpang wanita dan pria di Titanic bepergian di kelas 1, 2, dan 3.
Gambar 6.10: Jumlah penumpang wanita dan pria di Titanic bepergian di kelas 1, 2, dan 3.
Gambar 6.10 berbeda dari plot bar sebelumnya yang telah saya tunjukkan bahwa tidak ada sumbu y eksplisit. Sebagai gantinya, saya telah menunjukkan nilai numerik aktual yang diwakili oleh setiap bilah. Setiap kali plot dimaksudkan untuk hanya menampilkan sejumlah kecil nilai yang berbeda, masuk akal untuk menambahkan angka aktual ke plot. Ini secara substansial meningkatkan jumlah informasi yang disampaikan oleh plot tanpa menambahkan banyak noise visual, dan menghilangkan kebutuhan untuk sumbu yeksplisit.

6.3 Plot dot dan peta panas

Bilah bukan satu-satunya pilihan untuk memvisualisasikan jumlah. Satu batasan penting dari bar adalah mereka harus mulai dari nol, sehingga panjang bar sebanding dengan jumlah yang ditunjukkan. Untuk beberapa set data, ini bisa tidak praktis atau mungkin mengaburkan fitur-fitur utama.Dalam hal ini, kami dapat menunjukkan jumlah dengan menempatkan titik di lokasi yang sesuai di sepanjang sumbu x atau y .
Gambar 6.11 menunjukkan pendekatan visualisasi ini untuk dataset harapan hidup di 25 negara di Amerika. Warga negara-negara ini memiliki harapan hidup antara 60 dan 81 tahun, dan nilai harapan hidup masing-masing individu ditunjukkan dengan titik biru di lokasi yang sesuai di sepanjang sumbu x . Dengan membatasi rentang sumbu pada interval 60 hingga 81 tahun, gambar tersebut menyoroti fitur utama dari dataset ini: Kanada memiliki harapan hidup tertinggi di antara semua negara yang terdaftar, dan Bolivia dan Haiti memiliki harapan hidup yang jauh lebih rendah daripada semua negara lain. Jika kita menggunakan bilah alih-alih titik (Gambar 6.12 ), kita akan membuat angka yang jauh lebih menarik. Karena jeruji sangat panjang pada gambar ini, dan mereka semua memiliki panjang yang hampir sama, mata ditarik ke tengah jeruji daripada ke titik akhir, dan angka tersebut gagal menyampaikan pesannya.
Harapan hidup negara-negara di Amerika, untuk tahun 2007. Sumber data: Proyek Gapminder
Gambar 6.11: Harapan hidup negara-negara di Amerika, untuk tahun 2007. Sumber data: Proyek Gapminder
Harapan hidup negara-negara di Amerika, untuk tahun 2007, ditampilkan sebagai bar. Dataset ini tidak cocok untuk divisualisasikan dengan bilah. Batangan terlalu panjang dan menarik perhatian dari fitur kunci dari data, perbedaan harapan hidup di antara berbagai negara. Sumber data: proyek Gapminder
Gambar 6.12: Harapan hidup negara-negara di Amerika, untuk tahun 2007, ditunjukkan sebagai batangan. Dataset ini tidak cocok untuk divisualisasikan dengan bilah. Batangan terlalu panjang dan menarik perhatian dari fitur kunci dari data, perbedaan harapan hidup di antara berbagai negara.Sumber data: proyek Gapminder
Terlepas dari apakah kita menggunakan bar atau titik, kita perlu memperhatikan urutan nilai data. Dalam Gambar 6.11dan 6.12 , negara-negara tersebut diperintahkan dalam urutan harapan hidup yang menurun. Jika kita sebaliknya memesannya secara alfabet, kita akan berakhir dengan awan poin yang tidak teratur yang membingungkan dan gagal menyampaikan pesan yang jelas (Gambar 6.13 ).
Harapan hidup negara-negara di Amerika, untuk tahun 2007. Di sini, negara-negara diurutkan berdasarkan abjad, yang menyebabkan titik-titik membentuk awan titik yang tidak beraturan. Ini membuat angka tersebut sulit dibaca, dan oleh karena itu pantas untuk dilabeli sebagai "buruk." Sumber data: proyek Gapminder
Gambar 6.13: Harapan hidup negara-negara di Amerika, untuk tahun 2007. Di sini, negara-negara diurutkan berdasarkan abjad, yang menyebabkan titik-titik membentuk awan titik yang tidak beraturan. Ini membuat angka tersebut sulit dibaca, dan oleh karena itu pantas untuk dilabeli sebagai "buruk." Sumber data: proyek Gapminder
Semua contoh sejauh ini telah mewakili jumlah dengan lokasi sepanjang skala posisi, baik melalui titik akhir bar atau penempatan titik. Untuk kumpulan data yang sangat besar, kedua opsi ini mungkin tidak sesuai, karena angka yang dihasilkan akan menjadi terlalu sibuk. Kita telah melihat pada Gambar 6.7 bahwa hanya tujuh kelompok dari empat nilai data dapat menghasilkan angka yang kompleks dan tidak mudah dibaca. Jika kami memiliki 20 kelompok yang terdiri dari 20 nilai data, angka yang sama kemungkinan akan sangat membingungkan.
Sebagai alternatif untuk memetakan nilai data ke posisi melalui bilah atau titik, kita dapat memetakan nilai data ke warna. Sosok seperti itu disebut peta panas. Gambar 6.14menggunakan pendekatan ini untuk menunjukkan persentase pengguna internet dari waktu ke waktu di 20 negara dan selama 23 tahun, dari 1994 hingga 2016. Sementara visualisasi ini membuat lebih sulit untuk menentukan nilai data yang ditampilkan (misalnya, berapa persentase tepatnya pengguna internet). di Amerika Serikat pada tahun 2015?), ia melakukan pekerjaan yang sangat baik untuk menyoroti tren yang lebih luas. Kita dapat melihat dengan jelas di negara mana penggunaan internet dimulai lebih awal dan mana yang tidak, dan kita juga dapat melihat dengan jelas negara mana yang memiliki penetrasi internet tinggi pada tahun terakhir yang dicakup oleh dataset (2016).
Adopsi internet dari waktu ke waktu, untuk negara-negara tertentu. Warna mewakili persentase pengguna internet untuk negara dan tahun masing-masing. Negara dipesan oleh persen pengguna internet pada 2016. Sumber data: Bank Dunia
Gambar 6.14: Adopsi Internet dari waktu ke waktu, untuk negara-negara tertentu. Warna mewakili persentase pengguna internet untuk negara dan tahun masing-masing. Negara dipesan oleh persen pengguna internet pada 2016. Sumber data: Bank Dunia
Seperti halnya dengan semua pendekatan visualisasi lain yang dibahas dalam bab ini, kita perlu memperhatikan urutan nilai-nilai data kategorikal ketika membuat peta panas. Pada Gambar 6.14 , negara-negara diurutkan berdasarkan persentase pengguna internet pada 2016. Urutan ini menempatkan Inggris, Jepang, Kanada, dan Jerman di atas Amerika Serikat, karena semua negara ini memiliki penetrasi internet yang lebih tinggi pada tahun 2016 daripada Amerika Serikat, meskipun Amerika Serikat melihat penggunaan internet yang signifikan pada waktu sebelumnya. Atau, kita dapat memesan negara dengan seberapa awal mereka mulai melihat penggunaan internet yang signifikan. Pada Gambar 6.15 , negara diperintahkan oleh tahun di mana penggunaan internet pertama kali naik menjadi di atas 20%. Dalam angka ini, Amerika Serikat berada di posisi ketiga dari atas, dan menonjol karena memiliki penggunaan internet yang relatif rendah pada 2016 dibandingkan dengan seberapa awal penggunaan internet dimulai di sana. Pola serupa dapat dilihat untuk Italia. Israel dan Prancis, sebaliknya, mulai relatif terlambat tetapi naik dengan cepat.
Adopsi internet dari waktu ke waktu, untuk negara-negara tertentu. Negara diperintahkan pada tahun di mana penggunaan internet mereka pertama kali melebihi 20%. Sumber data: Bank Dunia
Gambar 6.15: Adopsi Internet dari waktu ke waktu, untuk negara-negara tertentu. Negara diperintahkan pada tahun di mana penggunaan internet mereka pertama kali melebihi 20%. Sumber data: Bank Dunia
Baik Gambar 6.14 dan 6.15 adalah representasi data yang valid. Yang mana yang disukai tergantung pada cerita yang ingin kami sampaikan. Jika cerita kita tentang penggunaan internet pada tahun 2016, maka Gambar 6.14 mungkin merupakan pilihan yang lebih baik. Namun, jika cerita kita adalah tentang bagaimana adopsi internet dini atau lambat terkait dengan penggunaan saat ini, maka Gambar 6.15 lebih disukai.