23 Seimbangkan data dan konteksnya
Kami dapat secara luas membagi elemen grafis dalam visualisasi apa pun menjadi elemen yang mewakili data dan elemen yang tidak. Yang pertama adalah elemen-elemen seperti titik-titik dalam sebaran plot, bar-bar dalam histogram atau barplot, atau area yang diarsir dalam peta panas. Yang terakhir adalah elemen-elemen seperti sumbu petak, kutu dan label sumbu, judul sumbu, legenda, dan anotasi plot.Elemen-elemen ini umumnya menyediakan konteks untuk data dan / atau struktur visual untuk plot. Saat mendesain plot, akan sangat membantu untuk memikirkan jumlah tinta (Bab 17 ) yang digunakan untuk merepresentasikan data dan konteks. Rekomendasi umum adalah untuk mengurangi jumlah tinta non-data, dan mengikuti saran ini seringkali dapat menghasilkan visualisasi yang berantakan dan lebih elegan. Pada saat yang sama, konteks dan struktur visual adalah penting, dan terlalu meminimalkan elemen plot yang menyediakannya dapat menghasilkan angka yang sulit dibaca, membingungkan, atau tidak menarik.
23.1 Memberikan jumlah konteks yang sesuai
Gagasan bahwa membedakan antara data dan tinta non-data mungkin bermanfaat dipopulerkan oleh Edward Tufte dalam bukunya "Tampilan Visual Informasi Kuantitatif" (Tufte 2001 ) .Tufte memperkenalkan konsep "data-tinta rasio", yang ia definisikan sebagai "proporsi tinta grafis yang ditujukan untuk tampilan data-informasi yang tidak mubazir." Dia kemudian menulis (menekankan milikku):
Maksimalkan rasio data-tinta, dengan alasan.
Saya telah menekankan frasa “masuk akal” karena itu kritis dan sering dilupakan. Bahkan, saya pikir Tufte sendiri lupa dalam sisa bukunya, di mana ia menganjurkan desain yang terlalu minimalis yang, menurut pendapat saya, tidak elegan dan tidak mudah untuk diuraikan. Jika kita menafsirkan frasa "memaksimalkan data-rasio tinta" berarti "menghapus kekacauan dan berusaha untuk desain yang bersih dan elegan," maka saya pikir itu adalah saran yang masuk akal.Tetapi jika kita menafsirkannya sebagai "melakukan apa saja untuk menghilangkan tinta non-data" maka itu akan menghasilkan pilihan desain yang buruk. Jika kita melangkah terlalu jauh ke arah mana pun kita akan berakhir dengan angka-angka buruk. Namun, jauh dari yang ekstrem ada berbagai desain yang semuanya dapat diterima dan mungkin sesuai dalam pengaturan yang berbeda.
Untuk menjelajahi yang ekstrem, mari kita perhatikan gambar yang jelas memiliki terlalu banyak tinta non-data (Gambar 23.1 ). Titik berwarna pada panel plot (area tengah berbingkai yang mengandung titik data) adalah tinta data. Yang lainnya adalah tinta non-data. Tinta non-data termasuk bingkai di sekitar gambar keseluruhan, bingkai di sekitar panel plot, dan bingkai di sekitar legenda. Tidak satu pun dari frame ini diperlukan. Kami juga melihat kisi latar belakang yang menonjol dan padat yang menarik perhatian dari titik data aktual. Dengan menghapus bingkai dan garis kotak kecil dan dengan menggambar garis kotak utama dalam abu-abu terang, kita sampai pada Gambar 23.2 . Dalam versi gambar ini, titik data aktual jauh lebih jelas, dan mereka dianggap sebagai komponen paling penting dari gambar tersebut.

Gambar 23.1: Persen lemak tubuh versus tinggi pada atlet pria Australia profesional. Setiap titik mewakili satu atlet. Angka ini mencurahkan terlalu banyak tinta untuk non-data. Ada bingkai yang tidak perlu di seluruh gambar, di sekitar panel plot, dan di sekitar legenda. Kotak koordinat sangat menonjol, dan keberadaannya menarik perhatian dari titik data.Sumber data: Telford dan Cunningham ( 1991 )

Gambar 23.2: Persen lemak tubuh versus tinggi pada atlet pria Australia profesional. Gambar ini adalah versi Gambar 23.1 yang sudah dibersihkan.Bingkai yang tidak perlu telah dihapus, garis kotak kecil telah dihapus, dan garis-garis kotak utama telah ditarik dalam abu-abu muda untuk mundur relatif terhadap titik data. Sumber data: Telford dan Cunningham ( 1991 )
Di sisi lain, kita mungkin berakhir dengan gambar seperti Gambar 23.3 , yang merupakan versi minimalis Gambar 23.2. Pada gambar ini, label dan judul tanda centang sumbu dibuat sangat redup sehingga sulit dilihat. Jika kita hanya melihat sekilas pada gambar kita tidak akan langsung melihat data apa yang sebenarnya ditampilkan. Kami hanya melihat poin mengambang di luar angkasa. Selain itu, penjelasan legenda sangat redup sehingga titik-titik dalam legenda bisa disalahartikan sebagai poin data. Efek ini diperkuat karena tidak ada pemisahan visual yang jelas antara area plot dan legenda. Perhatikan bagaimana grid latar belakang pada Gambar 23.2 mengaitkan titik-titik di ruang dan menetapkan area data dari area legenda. Kedua efek ini telah hilang pada Gambar 23.3 .

Gambar 23.3: Persen lemak tubuh versus tinggi pada atlet pria Australia profesional. Dalam contoh ini, konsep menghilangkan tinta non-data telah diambil terlalu jauh. Label dan judul centang sumbu terlalu samar dan nyaris tidak terlihat. Poin data tampaknya mengambang di ruang angkasa. Poin-poin dalam legenda tidak cukup berangkat dari titik data, dan pengamat biasa mungkin berpikir mereka adalah bagian dari data. Sumber data: Telford dan Cunningham ( 1991 )
Pada Gambar 23.2 , saya menggunakan grid latar belakang terbuka dan tidak ada garis sumbu atau bingkai di sekitar panel plot. Saya suka desain ini karena menyampaikan kepada pembaca bahwa rentang nilai data yang mungkin melampaui batas sumbu. Misalnya, meskipun Gambar 23.2menunjukkan tidak ada atlet yang lebih tinggi dari 210 cm, atlet seperti itu bisa saja ada. Namun, beberapa penulis lebih suka menggambarkan batas panel plot, dengan menggambar bingkai di sekitarnya (Gambar 23.4 ). Kedua opsi tersebut masuk akal, dan mana yang lebih disukai utamanya adalah masalah pendapat pribadi. Salah satu keuntungan dari versi berbingkai adalah ia dengan jelas memisahkan legenda dari panel plot.

Gambar 23.4: Persen lemak tubuh versus tinggi pada atlet pria Australia profesional. Gambar ini menambahkan bingkai di sekitar panel plot Gambar 23.2 , dan bingkai ini membantu memisahkan legenda dari data. Sumber data: Telford dan Cunningham ( 1991 )
Angka-angka dengan tinta non-data yang terlalu sedikit biasanya menderita akibat efek elemen angka yang tampak mengambang di ruang angkasa, tanpa koneksi yang jelas atau referensi apa pun. Masalah ini cenderung sangat parah pada plot-plot multipel kecil. Gambar 23.5 menunjukkan plot kecil-kelipatan yang membandingkan enam plot bar berbeda, tetapi lebih mirip sepotong karya seni modern daripada visualisasi data yang berguna. Balok tidak berlabuh ke garis dasar yang jelas dan aspek plot individu tidak jelas digambarkan. Kita dapat menyelesaikan masalah ini dengan menambahkan latar belakang abu-abu terang dan garis grid horizontal tipis pada setiap sisi (Gambar 23.6 ).

Gambar 23.5: Kelangsungan hidup penumpang di Titanic, dikelompokkan berdasarkan jenis kelamin dan kelas. Plot kecil-kelipatan ini terlalu minimalis. Fakta-fakta individu tidak dibingkai, jadi sulit untuk melihat bagian mana dari sosok itu yang termasuk dalam segi mana. Lebih lanjut, batang individual tidak berlabuh ke garis dasar yang jelas, dan mereka tampaknya melayang.

Gambar 23.6: Kelangsungan hidup penumpang di Titanic, dikelompokkan berdasarkan jenis kelamin dan kelas. Ini adalah versi perbaikan dari Gambar 23.5 . Latar belakang abu-abu di setiap sisi dengan jelas menggambarkan keenam pengelompokan (selamat atau mati di kelas pertama, kedua, atau ketiga) yang membentuk plot ini. Garis horizontal tipis di latar belakang memberikan referensi untuk ketinggian batang dan perbandingan fasilitas ketinggian batang di antara berbagai sisi.
23.2 Grid latar belakang
Garis kisi di latar belakang plot dapat membantu pembaca membedakan nilai data tertentu dan membandingkan nilai di satu bagian plot dengan nilai di bagian lain. Pada saat yang sama, gridlines dapat menambahkan noise visual, khususnya ketika mereka menonjol atau berjarak sangat padat. Orang yang beralasan dapat tidak setuju apakah akan menggunakan kotak atau tidak, dan jika demikian, bagaimana memformatnya dan seberapa padatnya ruang itu. Di sepanjang buku ini saya menggunakan berbagai gaya kisi yang berbeda, untuk menegaskan bahwa tidak ada satu pilihan terbaik.
Perangkat lunak R ggplot2 telah mempopulerkan suatu gaya menggunakan kisi latar belakang garis putih yang cukup menonjol pada latar belakang abu-abu. Gambar 23.7menunjukkan contoh dalam gaya ini. Angka tersebut menampilkan perubahan harga saham empat perusahaan teknologi besar selama lima tahun, dari 2012 hingga 2017. Dengan permintaan maaf kepada penulis ggplot2 Hadley Wickham, yang sangat saya hormati, saya tidak menemukan warna putih- grid latar belakang abu-abu sangat menarik.Bagi saya, latar belakang abu-abu dapat mengurangi data aktual, dan kotak dengan garis besar dan kecil bisa terlalu padat. Saya juga menemukan kotak abu-abu dalam legenda membingungkan.

Gambar 23.7: Harga saham dari waktu ke waktu untuk empat perusahaan teknologi besar. Harga saham untuk masing-masing perusahaan telah dinormalisasi menjadi 100 pada bulan Juni 2012. Angka ini meniru tampilan default ggplot2, dengan garis kotak putih besar dan kecil pada latar belakang abu-abu. Dalam contoh khusus ini, saya pikir garis grid mengalahkan garis data, dan hasilnya adalah angka yang tidak seimbang dan yang tidak menempatkan cukup penekanan pada data. Sumber data: Yahoo Finance
Argumen yang mendukung latar belakang abu-abu termasuk bahwa itu (i) membantu plot untuk dianggap sebagai entitas visual tunggal dan (ii) mencegah plot muncul sebagai kotak putih di sekitar teks gelap (Wickham 2016 ) . Saya sepenuhnya setuju dengan poin pertama, dan itulah alasan saya menggunakan latar belakang abu-abu pada Gambar 23.6 . Untuk poin kedua, saya ingin mengingatkan bahwa persepsi kegelapan teks akan tergantung pada ukuran font, fontface, dan penspasian garis, dan kegelapan yang dirasakan akan tergantung pada jumlah absolut dan warna tinta yang digunakan, termasuk semua data tinta. Sebuah naskah ilmiah berbentuk padat, Times New Roman 10-poin akan terlihat jauh lebih gelap daripada sebuah set buku meja kopi di Palatino 14-poin dengan spasi satu setengah garis.Demikian juga, sebaran plot lima poin dalam warna kuning akan terlihat jauh lebih ringan daripada sebaran 10.000 poin dalam warna hitam. Jika Anda ingin menggunakan latar belakang gambar abu-abu, pertimbangkan intensitas warna latar depan gambar Anda, serta tata letak dan tipografi teks yang diharapkan di sekitar gambar Anda, dan sesuaikan pilihan latar belakang abu-abu Anda. Kalau tidak, itu bisa terjadi bahwa sosok Anda akhirnya berdiri sebagai kotak gelap di antara teks yang lebih terang di sekitarnya. Juga, perlu diingat bahwa warna yang Anda gunakan untuk memplot data Anda perlu bekerja dengan latar belakang abu-abu. Kita cenderung mempersepsikan warna secara berbeda terhadap latar belakang yang berbeda, dan latar belakang abu-abu membutuhkan warna latar depan yang lebih gelap dan lebih jenuh daripada latar belakang putih.
Kita bisa pergi jauh ke arah yang berlawanan dan menghapus latar belakang dan garis kisi (Gambar 23.8 ).Dalam hal ini, kita perlu garis sumbu yang terlihat untuk membingkai plot dan menyimpannya sebagai satu kesatuan visual. Untuk figur khusus ini, saya pikir pilihan ini adalah pilihan yang lebih buruk, dan saya telah menamakannya "buruk". Dengan tidak adanya grid latar belakang apa pun, kurva tampaknya melayang di ruang angkasa, dan sulit untuk merujuk nilai akhir di kanan ke kutu sumbu di sebelah kiri.

Gambar 23.8: Indeks harga saham dari waktu ke waktu untuk empat perusahaan teknologi besar. Dalam varian Gambar 23.7 ini , garis data tidak cukup berlabuh. Hal ini membuat sulit untuk memastikan sejauh mana mereka telah menyimpang dari nilai indeks 100 pada akhir interval waktu yang dicakup. Sumber data: Yahoo Finance
Paling tidak mutlak, kita perlu menambahkan satu garis referensi horisontal. Karena harga saham pada Gambar 23.8diindeks menjadi 100 pada Juni 2012, menandai nilai ini dengan garis horizontal tipis pada y = 100 sangat membantu (Gambar 23.9 ). Atau, kita dapat menggunakan "grid" minimal garis horizontal. Untuk plot di mana kami terutama tertarik pada perubahan nilai y , garis kotak vertikal tidak diperlukan.Selain itu, garis-garis grid yang diposisikan hanya pada kutu sumbu utama akan sering memadai. Dan, garis sumbu dapat dihilangkan atau dibuat sangat tipis, karena garis-garis horzontal jelas menandai tingkat plot (Gambar 23.10 ).

Gambar 23.9: Indeks harga saham dari waktu ke waktu untuk empat perusahaan teknologi besar. Menambahkan garis horizontal tipis pada nilai indeks 100 ke Gambar 23.8 membantu memberikan referensi penting sepanjang periode waktu plot berlangsung. Sumber data: Yahoo Finance

Gambar 23.10: Indeks harga saham dari waktu ke waktu untuk empat perusahaan teknologi besar. Menambahkan garis horizontal tipis pada semua kutu sumbu y utama memberikan satu set titik referensi yang lebih baik daripada hanya satu garis horizontal pada Gambar 23.9 . Desain ini juga menghilangkan kebutuhan untuk garis sumbu x dan y yang menonjol, karena garis horizontal yang berjarak sama rata membuat bingkai visual untuk panel plot. Sumber data: Yahoo Finance
Untuk kisi seminimal itu, kita biasanya menggambar garis secara ortogonal ke arah sepanjang jumlah bunga bervariasi.Oleh karena itu, jika alih-alih memplot harga saham dari waktu ke waktu kita memplot kenaikan lima tahun, sebagai palang horizontal, maka kita ingin menggunakan garis vertikal sebagai gantinya (Gambar 23.11 ).

Gambar 23.11: Persen kenaikan harga saham dari Juni 2012 hingga Juni 2017, untuk empat perusahaan teknologi besar. Karena bilah berjalan secara horizontal, garis kisi vertikal sesuai di sini. Sumber data: Yahoo Finance
Garis kisi yang berjalan tegak lurus terhadap variabel kunci yang diminati cenderung paling bermanfaat.
Untuk grafik batang seperti Gambar 23.11 , Tufte ( 2001 )merekomendasikan untuk menggambar garis kotak putih di atas batang bukannya garis kotak gelap di bawahnya (Gambar 23.12 ). Garis-garis kotak putih ini memiliki efek memisahkan batang menjadi segmen yang berbeda dengan panjang yang sama. Saya memiliki dua pemikiran tentang gaya ini. Di satu sisi, penelitian terhadap persepsi manusia menunjukkan bahwa memecah batang menjadi segmen terpisah membantu pembaca memahami panjang batang (Haroz, Kosara, dan Franconeri 2015 ) . Di sisi lain, di mata saya jeruji terlihat seperti berantakan dan tidak membentuk unit visual yang jelas. Bahkan, saya menggunakan gaya ini dengan sengaja pada Gambar 6.10 untuk secara terpisah memisahkan tumpukan tumpukan yang mewakili penumpang pria dan wanita. Efek mana yang mendominasi mungkin tergantung pada pilihan spesifik lebar batang, jarak antar batang, dan ketebalan garis kisi putih. Jadi, jika Anda bermaksud menggunakan gaya ini, saya mendorong Anda untuk memvariasikan parameter ini hingga Anda memiliki gambar yang menciptakan efek visual yang diinginkan.

Gambar 23.12: Persen kenaikan harga saham dari Juni 2012 hingga Juni 2017, untuk empat perusahaan teknologi besar. Garis kotak putih di atas bilah dapat membantu pembaca memahami panjang relatif bilah. Pada saat yang sama, mereka juga dapat menciptakan persepsi bahwa jeruji berantakan. Sumber data: Yahoo Finance
Saya ingin menunjukkan kelemahan lain pada Gambar 23.12. Saya harus memindahkan nilai persentase di luar bilah, karena label tidak masuk ke segmen akhir dari beberapa bilah. Namun, pilihan ini secara visual memanjang memanjang dan harus dihindari sebisa mungkin.
Latar belakang grid di sepanjang kedua arah sumbu paling tepat untuk plot pencar di mana tidak ada sumbu utama yang menarik. Gambar 23.2 di awal bab ini memberikan contoh.Ketika gambar memiliki grid latar belakang penuh, garis sumbu umumnya tidak diperlukan (Gambar 23.2 ).
23.3 Data berpasangan
Untuk gambar di mana perbandingan yang relevan adalah garis x = y , seperti dalam sebar plot data berpasangan, saya lebih suka menggambar garis diagonal daripada kisi. Sebagai contoh, perhatikan Gambar 23.13 , yang membandingkan level ekspresi gen dalam virus mutan dengan varian non-mutasi (tipe liar). Dengan menggambar garis diagonal, kita dapat segera melihat gen mana yang diekspresikan lebih tinggi atau lebih rendah pada mutan relatif terhadap tipe liar.Pengamatan yang sama jauh lebih sulit dilakukan ketika gambar memiliki grid latar belakang dan tidak ada garis diagonal (Gambar 23.14 ). Jadi, meskipun Gambar 23.14terlihat menyenangkan, saya menamakannya buruk. Secara khusus, gen 10A , yang jelas memiliki tingkat ekspresi berkurang pada mutan relatif terhadap tipe liar (Gambar 23.13 ), tidak secara visual menonjol pada Gambar 23.14 .

Gambar 23.13: Tingkat ekspresi gen dalam bakteriofag mutan T7 relatif terhadap tipe liar. Tingkat ekspresi gen diukur dengan kelimpahan mRNA, dalam transkrip per juta (TPM). Setiap titik berhubungan dengan satu gen.Dalam bakteriofag mutan T7, promotor di depan gen 9 telah dihapus, dan ini mengakibatkan berkurangnya kelimpahan mRNA dari gen 9 serta gen tetangga 8 dan 10A (disorot). Sumber data: Paff et al. ( 2018 )

Gambar 23.14: Tingkat ekspresi gen dalam bakteriofag mutan T7 relatif terhadap tipe liar. Dengan memplot dataset ini terhadap grid latar belakang, alih-alih garis diagonal, kami mengaburkan gen mana yang lebih tinggi atau lebih rendah di mutan daripada di bakteriofag tipe liar. Sumber data: Paff et al. ( 2018 )
Tentu saja kita dapat mengambil garis diagonal dari Gambar 23.13 dan menambahkannya di atas grid latar belakang Gambar 23.14 , untuk memastikan bahwa referensi visual yang relevan ada. Namun, angka yang dihasilkan semakin sibuk (Gambar 23.15 ). Saya harus membuat garis diagonal lebih gelap sehingga akan menonjol di antara grid latar belakang, tetapi sekarang titik-titik data hampir tampak memudar ke latar belakang. Kita bisa memperbaiki masalah ini dengan membuat poin data lebih besar atau lebih gelap, tetapi semua menganggap saya lebih suka memilih Gambar 23.13 .

Gambar 23.15: Tingkat ekspresi gen dalam bakteriofag mutan T7 relatif terhadap tipe liar. Gambar ini menggabungkan grid latar belakang dari Gambar 23.14 dengan garis diagonal dari Gambar 23.13 . Menurut pendapat saya, angka ini secara visual terlalu sibuk dibandingkan dengan Gambar 23.13 , dan saya lebih suka Gambar 23.13 . Sumber data: Paff et al. ( 2018 )
23.4 Ringkasan
Keduanya membebani gambar dengan tinta non-data dan menghapus tinta non-data secara berlebihan dapat menyebabkan desain gambar yang buruk. Kita perlu menemukan media yang sehat, di mana titik data adalah penekanan utama gambar sementara konteks yang cukup disediakan tentang data apa yang ditampilkan, di mana titik-titik itu terletak relatif satu sama lain, dan apa artinya.
Sehubungan dengan latar belakang dan grid latar belakang, tidak ada satu pilihan yang lebih disukai dalam semua konteks. Saya sarankan untuk bersikap bijaksana tentang garis kisi. Pikirkan baik-baik tentang grid atau garis panduan spesifik mana yang paling informatif untuk plot yang Anda buat, dan kemudian tunjukkan saja. Saya lebih suka jaringan cahaya minimal pada latar belakang putih, karena putih adalah warna netral standar di atas kertas dan mendukung hampir semua warna latar depan. Namun, latar belakang yang teduh dapat membantu plot muncul sebagai entitas visual tunggal, dan ini mungkin sangat berguna dalam plot multipel kecil. Akhirnya, kita harus mempertimbangkan bagaimana semua pilihan ini berhubungan dengan visual branding dan identitas. Banyak majalah dan situs web ingin memiliki gaya in-house yang langsung dapat dikenali, dan latar belakang yang teduh dan pilihan grid latar belakang yang spesifik dapat membantu menciptakan identitas visual yang unik.
Referensi
Tufte, E. 2001. Tampilan Visual Informasi Kuantitatif . 2nd ed.Cheshire, Connecticut: Graphics Press.
Telford, RD, dan RB Cunningham. 1991. "Jenis Kelamin, Olahraga, dan Ketergantungan Ukuran Tubuh pada Atlet yang Sangat Terlatih." Kedokteran dan Sains dalam Olahraga dan Latihan 23: 788-94.
Wickham, H. 2016. ggplot2: Grafik Elegan untuk Analisis Data. 2nd ed. New York: Springer.
Haroz, S., R. Kosara, dan SL Franconeri. 2015. "Visualisasi ISOTYPE: Memori Kerja, Kinerja, dan Keterlibatan dengan Piktograf." Konferensi ACM tentang Faktor Manusia dalam Sistem Komputer , 1191–1200. doi: 10.1145 / 2702123.2702275 .
Paff, ML, Jack BR, BL Smith, JJ Bull, dan CO Wilke. 2018. "Pendekatan Kombinatorial untuk Pelemahan Viral." bioRxiv , 29918. doi: 10.1101 / 299180 .
