Angka multi-panel

21 angka multi-panel

Ketika dataset menjadi besar dan kompleks, mereka seringkali mengandung lebih banyak informasi daripada yang bisa ditampilkan dalam panel gambar tunggal. Untuk memvisualisasikan kumpulan data semacam itu, akan sangat membantu untuk membuat angka multi-panel. Ini adalah angka yang terdiri dari beberapa panel angka di mana masing-masing menunjukkan beberapa bagian dari data. Ada dua kategori berbeda dari gambar-gambar tersebut: 1. Kelipatan kecil adalah plot yang terdiri dari beberapa panel yang disusun dalam kisi-kisi biasa. Setiap panel menunjukkan subset data yang berbeda tetapi semua panel menggunakan jenis visualisasi yang sama. 2. Gambar majemuk terdiri dari panel gambar terpisah yang dirangkai dalam pengaturan sewenang-wenang (yang mungkin atau mungkin tidak berbasis grid) dan menunjukkan visualisasi yang sama sekali berbeda, atau bahkan mungkin set data yang berbeda.
Kami telah menemukan kedua jenis tokoh multi-panel di banyak tempat di seluruh buku ini. Secara umum, angka-angka ini intuitif dan mudah untuk ditafsirkan. Namun, ketika menyiapkan angka-angka seperti itu, ada beberapa masalah yang perlu kita perhatikan, seperti penskalaan sumbu yang tepat, penyelarasan, dan konsistensi antara panel yang terpisah.

21.1 Kelipatan kecil

Istilah "small multiple" dipopulerkan oleh Tufte ( 1990 ) .Istilah alternatif, "trellis plot", dipopulerkan sekitar waktu yang sama oleh Cleveland, Becker, dan rekannya di Bell Labs (WS Cleveland 1993 ; Becker, Cleveland, dan Shyu 1996 ) .Terlepas dari terminologi, ide kuncinya adalah untuk mengiris data menjadi bagian-bagian sesuai dengan satu atau lebih dimensi data, memvisualisasikan masing-masing potongan data secara terpisah, dan kemudian mengatur visualisasi masing-masing ke dalam kotak. Kolom, baris, atau panel individual dalam kisi diberi label oleh nilai dimensi data yang menentukan irisan data. Baru-baru ini, teknik ini juga kadang-kadang disebut sebagai "faceting", dinamai metode yang membuat plot tersebut di pustaka plot ggplot2 yang banyak digunakan (misalnya, facet_grid() , lihat Wickham ( 2016 )).
Sebagai contoh pertama, kami akan menerapkan teknik ini pada dataset penumpang Titanic. Kami dapat membagi dataset ini dengan kelas di mana setiap penumpang bepergian dan apakah penumpang selamat atau tidak. Dalam masing-masing dari enam irisan data ini, ada penumpang pria dan wanita, dan kita dapat memvisualisasikan jumlah mereka menggunakan bar. Hasilnya adalah enam plot bar, yang kami susun dalam dua kolom (satu untuk penumpang yang meninggal dan satu untuk mereka yang selamat) dari tiga baris (satu untuk setiap kelas) (Gambar 21.1 ). Kolom dan baris diberi label, sehingga segera jelas mana dari enam plot yang sesuai dengan kombinasi status bertahan hidup dan kelas.
Rincian penumpang di Titanic berdasarkan jenis kelamin, kelangsungan hidup, dan kelas di mana mereka bepergian (1, 2, atau 3).
Gambar 21.1: Rincian penumpang di Titanic berdasarkan jenis kelamin, kelangsungan hidup, dan kelas di mana mereka bepergian (1, 2, atau 3).
Visualisasi ini memberikan visualisasi yang intuitif dan sangat dapat ditafsirkan tentang nasib para penumpang Titanic. Kita melihat dengan jelas bahwa sebagian besar pria meninggal dan sebagian besar wanita selamat. Selanjutnya, dan di antara para wanita yang meninggal hampir semua bepergian di kelas 3.
Multiples kecil adalah alat yang ampuh untuk memvisualisasikan jumlah data yang sangat besar sekaligus.Gambar 21.1 menggunakan enam panel terpisah, tetapi kita dapat menggunakan lebih banyak lagi. Gambar 21.2menunjukkan hubungan antara peringkat rata-rata film di Internet Movie Database (IMDB) dan jumlah suara yang diterima film, secara terpisah untuk film yang dirilis selama periode waktu 100 tahun. Di sini, dataset diiris oleh hanya satu dimensi, tahun, dan panel untuk setiap tahun disusun dalam baris dari kiri atas ke kanan bawah. Visualisasi ini menunjukkan bahwa ada hubungan keseluruhan antara peringkat rata-rata dan jumlah suara, sehingga film dengan lebih banyak suara cenderung memiliki peringkat lebih tinggi.Namun, kekuatan tren ini bervariasi dari tahun ke tahun, dan untuk film yang dirilis pada awal 2000-an tidak ada hubungan atau bahkan negatif.
Pemeringkatan rata-rata film versus jumlah suara, untuk film dari tahun 1906 hingga 2005. Dots mewakili masing-masing film, dan garis mewakili regresi linier dari rata-rata peringkat setiap film versus logaritma dari jumlah suara yang diterima film. Dalam sebagian besar tahun, film dengan jumlah suara yang lebih tinggi rata-rata memiliki peringkat rata-rata yang lebih tinggi. Namun, tren ini telah melemah menjelang akhir abad ke-20, dan hubungan negatif dapat dilihat untuk film yang dirilis pada awal 2000-an. Sumber Data: Basis Data Film Internet (IMDB, http://imdb.com/)
Gambar 21.2: Pemeringkatan rata-rata film versus jumlah suara, untuk film dari tahun 1906 hingga 2005. Dots mewakili masing-masing film, dan garis mewakili regresi linier dari rata-rata peringkat setiap film versus logaritma dari jumlah suara yang diterima film. Dalam sebagian besar tahun, film dengan jumlah suara yang lebih tinggi rata-rata memiliki peringkat rata-rata yang lebih tinggi. Namun, tren ini telah melemah menjelang akhir abad ke-20, dan hubungan negatif dapat dilihat untuk film yang dirilis pada awal 2000-an. Sumber Data: Basis Data Film Internet (IMDB, http://imdb.com/ )
Agar plot besar tersebut mudah dimengerti, penting agar setiap panel menggunakan rentang dan skala sumbu yang sama. Pikiran manusia mengharapkan hal ini terjadi. Ketika tidak, ada kemungkinan besar bahwa pembaca akan salah menafsirkan apa yang ditunjukkan gambar tersebut. Sebagai contoh, perhatikan Gambar 21.3 , yang menyajikan bagaimana proporsi gelar Sarjana di bidang gelar yang berbeda telah berubah dari waktu ke waktu. Gambar tersebut menunjukkan sembilan bidang derajat yang telah mewakili, rata-rata, lebih dari 4% dari semua derajat antara 1971 hingga 2015. Sumbu y panel diskalakan sedemikian rupa sehingga kurva untuk setiap bidang derajat mencakup seluruh rentang y- sumbu. Sebagai konsekuensinya, pemeriksaan sepintas pada Gambar 21.3 menunjukkan bahwa bidang sembilan derajat semuanya sama-sama populer dan semuanya mengalami variasi dalam popularitas yang besarnya sama.
Tren gelar Sarjana yang diberikan oleh institusi pendidikan tinggi A.S. Ditampilkan adalah semua bidang gelar yang mewakili, rata-rata, lebih dari 4% dari semua derajat. Angka ini dilabeli sebagai "buruk" karena semua panel menggunakan rentang sumbu y yang berbeda. Pilihan ini mengaburkan ukuran relatif dari area derajat yang berbeda dan terlalu melebih-lebihkan perubahan yang telah terjadi di beberapa bidang derajat. Sumber Data: Pusat Statistik Pendidikan Nasional
Gambar 21.3: Tren gelar Sarjana yang diberikan oleh institusi pendidikan tinggi AS. Ditampilkan adalah semua bidang gelar yang mewakili, rata-rata, lebih dari 4% dari semua derajat. Angka ini dilabeli sebagai "buruk" karena semua panel menggunakan rentang y- sumbu yang berbeda. Pilihan ini mengaburkan ukuran relatif dari area derajat yang berbeda dan terlalu melebih-lebihkan perubahan yang telah terjadi di beberapa bidang derajat.Sumber Data: Pusat Statistik Pendidikan Nasional
Namun, menempatkan semua panel pada sumbu y yangsama mengungkapkan bahwa interpretasi ini sangat menyesatkan (Gambar 21.4 ). Beberapa area gelar jauh lebih populer daripada yang lain, dan demikian pula beberapa daerah telah tumbuh atau menyusut lebih dari yang lain.Sebagai contoh, pendidikan telah menurun banyak, sedangkan seni visual dan pertunjukan tetap konstan atau mungkin terlihat sedikit meningkat.
Tren gelar Sarjana yang diberikan oleh institusi pendidikan tinggi A.S. Ditampilkan adalah semua bidang gelar yang mewakili, rata-rata, lebih dari 4% dari semua derajat. Sumber Data: Pusat Statistik Pendidikan Nasional
Gambar 21.4: Tren gelar Sarjana yang diberikan oleh institusi pendidikan tinggi AS. Ditampilkan adalah semua bidang gelar yang mewakili, rata-rata, lebih dari 4% dari semua derajat. Sumber Data: Pusat Statistik Pendidikan Nasional
Saya biasanya merekomendasikan agar tidak menggunakan skala sumbu yang berbeda di panel terpisah dari plot kelipatan kecil. Namun, kadang-kadang, masalah ini benar-benar tidak dapat dihindari. Jika Anda menghadapi skenario seperti itu, maka saya pikir setidaknya Anda perlu menarik perhatian pembaca untuk masalah ini dalam keterangan gambar. Misalnya, Anda dapat menambahkan kalimat seperti: "Perhatikan bahwa skala y- sumbu berbeda di antara berbagai panel gambar ini."
Penting juga untuk memikirkan urutan panel-panel individual dalam plot kelipatan kecil. Plot akan lebih mudah diinterpretasikan jika urutan mengikuti beberapa prinsip logis.Pada Gambar 21.1 , saya mengatur baris dari kelas tertinggi (kelas 1) ke kelas terendah (kelas 3). Pada Gambar 21.2 , saya mengatur panel dengan meningkatkan tahun dari kiri atas ke kanan bawah. Pada Gambar 21.4 , saya mengatur panel dengan mengurangi popularitas derajat rata-rata, sehingga derajat paling populer berada di baris atas dan / atau ke kiri dan derajat paling tidak populer adalah di baris bawah dan / atau ke kanan.
Selalu mengatur panel dalam plot kelipatan kecil dalam urutan yang bermakna dan logis.

21.2 Angka gabungan

Tidak setiap gambar dengan banyak panel cocok dengan pola kelipatan kecil. Kadang-kadang kami hanya ingin menggabungkan beberapa panel independen menjadi sosok gabungan yang menyampaikan satu titik menyeluruh. Dalam hal ini, kita dapat mengambil plot indivdiual dan mengaturnya dalam baris, kolom, atau lainnya, pengaturan yang lebih kompleks, dan memanggil seluruh pengaturan satu gambar.Sebagai contoh, lihat Gambar 21.5 , yang melanjutkan analisis tren dalam gelar Sarjana yang dikonversikan oleh institusi pendidikan tinggi AS. Panel (a) dari Gambar 21.5menunjukkan pertumbuhan jumlah total derajat yang diberikan dari tahun 1971 hingga 2015, rentang waktu di mana jumlah derajat yang diberikan sekitar dua kali lipat.Panel (b) sebagai gantinya menunjukkan perubahan dalam persentase derajat yang diberikan selama periode waktu yang sama di lima bidang gelar paling populer. Kita dapat melihat bahwa ilmu sosial, sejarah, dan pendidikan telah mengalami penurunan besar-besaran dari tahun 1971 hingga 2015, sedangkan profesi bisnis dan kesehatan telah melihat pertumbuhan yang substansial.
Perhatikan betapa tidak seperti dalam contoh kelipatan kecil saya, panel individual dari figur majemuk diberi label menurut abjad. Adalah konvensional untuk menggunakan huruf kecil atau besar dari alfabet Latin. Pelabelan diperlukan untuk menentukan panel khusus secara unik. Misalnya, ketika saya ingin berbicara tentang bagian Gambar 21.5 yang menunjukkan perubahan dalam persentase derajat yang diberikan, saya dapat merujuk ke panel (b) dari gambar itu atau hanya ke Gambar 21.5 b. Tanpa pelabelan, saya harus canggung berbicara tentang "panel kanan" atau "panel kiri" pada Gambar 21.5 , dan merujuk pada panel tertentu akan lebih canggung untuk pengaturan panel yang lebih kompleks. Pelabelan tidak diperlukan dan biasanya tidak dilakukan untuk kelipatan kecil karena setiap panel secara unik ditentukan oleh variabel faceting yang disediakan sebagai label gambar.
Tren Gelar Sarjana yang diberikan oleh institusi pendidikan tinggi A.S. (a) Dari tahun 1970 hingga 2015, jumlah total derajat hampir dua kali lipat. (B) Di antara bidang gelar paling populer, ilmu sosial, sejarah, dan pendidikan mengalami penurunan besar, sementara profesi bisnis dan kesehatan tumbuh. Sumber Data: Pusat Statistik Pendidikan Nasional
Gambar 21.5: Tren Gelar Sarjana yang diberikan oleh institusi pendidikan tinggi AS. (a) Dari tahun 1970 hingga 2015, jumlah total derajat hampir dua kali lipat. (B) Di antara bidang gelar paling populer, ilmu sosial, sejarah, dan pendidikan mengalami penurunan besar, sementara profesi bisnis dan kesehatan tumbuh. Sumber Data: Pusat Statistik Pendidikan Nasional
Saat melabeli panel yang berbeda dari figur majemuk, perhatikan bagaimana label masuk ke dalam desain gambar keseluruhan. Saya sering melihat gambar-gambar di mana label-label itu terlihat seperti ditampar ke gambar setelah fakta oleh orang yang berbeda. Ini tidak biasa untuk melihat label yang dibuat terlalu besar dan menonjol, ditempatkan di lokasi yang canggung, atau mengeset dalam font yang berbeda dari gambar lainnya. (Lihat Gambar 21.6 sebagai contoh.) Label tidak boleh menjadi hal pertama yang Anda lihat ketika Anda melihat sosok majemuk. Bahkan, mereka tidak perlu menonjol sama sekali. Kita umumnya tahu panel gambar mana yang memiliki label mana, karena konvensi akan dimulai dari sudut kiri atas dengan "a" dan label secara berurutan dari kiri ke kanan dan atas ke bawah. Saya menganggap label ini setara dengan nomor halaman. Anda biasanya tidak membaca nomor halaman, dan tidak ada kejutan di mana halaman memiliki nomor tersebut, tetapi kadang-kadang dapat membantu untuk menggunakan nomor halaman untuk merujuk ke tempat tertentu dalam buku atau artikel.
Variasi Gambar 21.5 dengan label buruk. Label terlalu besar dan tebal, salah font, dan ditempatkan pada lokasi yang canggung. Selain itu, meskipun pelabelan dengan huruf besar baik-baik saja dan sebenarnya cukup umum, pelabelan harus konsisten di semua angka dalam dokumen. Dalam buku ini, konvensi adalah bahwa angka multi-panel menggunakan label huruf kecil, dan dengan demikian angka ini tidak konsisten dengan angka-angka lain dalam buku ini.
Gambar 21.6: Variasi Gambar 21.5 dengan label yang buruk. Label terlalu besar dan tebal, salah font, dan ditempatkan pada lokasi yang canggung.Selain itu, meskipun pelabelan dengan huruf besar baik-baik saja dan sebenarnya cukup umum, pelabelan harus konsisten di semua angka dalam dokumen. Dalam buku ini, konvensi adalah bahwa angka multi-panel menggunakan label huruf kecil, dan dengan demikian angka ini tidak konsisten dengan angka-angka lain dalam buku ini.
Kita juga perlu memperhatikan bagaimana panel-panel individual dari figur majemuk cocok satu sama lain.Dimungkinkan untuk membuat satu set panel gambar yang secara individual baik-baik saja tetapi secara bersama tidak bekerja. Secara khusus, kita perlu menggunakan bahasa visual yang konsisten. Yang dimaksud dengan “bahasa visual,” yang saya maksud adalah warna, simbol, font, dan sebagainya yang kami gunakan untuk menampilkan data.Singkatnya, menjaga bahasa tetap berarti, bahwa hal-hal yang sama terlihat sama atau setidaknya secara substansial serupa di seluruh angka.
Mari kita lihat contoh yang melanggar prinsip ini. Gambar 21.7 adalah gambar tiga panel yang memvisualisasikan dataset tentang fisiologi dan komposisi tubuh atlet pria dan wanita. Panel (a) menunjukkan jumlah pria dan wanita dalam dataset, panel (b) menunjukkan jumlah sel darah merah dan putih untuk pria dan wanita, dan panel (c) menunjukkan persentase lemak tubuh pria dan wanita, dipecah dengan olahraga. Setiap panel secara individual adalah angka yang dapat diterima. Namun, kombinasi ketiga panel tidak berfungsi, karena mereka tidak berbagi bahasa visual yang sama. Pertama, panel (a) menggunakan warna biru yang sama untuk atlet pria dan wanita, panel (b) menggunakannya hanya untuk atlet pria, dan panel (c) menggunakannya untuk atlet wanita. Selain itu, panel (b) dan (c) memperkenalkan warna tambahan, tetapi warna ini berbeda antara dua panel.Akan lebih baik menggunakan dua warna yang sama secara konsisten untuk atlet pria dan wanita, dan untuk menerapkan skema pewarnaan yang sama pada panel (a) juga. Kedua, pada panel (a) dan (b) wanita di sebelah kiri dan pria di sebelah kanan, tetapi di panel (c) urutannya terbalik. Urutan plot kotak pada panel (c) harus diaktifkan sehingga cocok dengan panel (a) dan (b).
Fisiologi dan komposisi tubuh atlet pria dan wanita. (a) Kumpulan data mencakup 73 atlet wanita dan 85 atlet profesional pria. (B) Atlet pria cenderung memiliki jumlah sel darah merah (RBC, dilaporkan dalam satuan \ (10 ​​^ {12} \) per liter) lebih tinggi daripada atlet wanita, tetapi tidak ada perbedaan untuk jumlah sel darah putih (WBC, dilaporkan dalam satuan \ (10 ​​^ {9} \) per liter). (c) Atlet pria cenderung memiliki persentase lemak tubuh lebih rendah daripada atlet wanita yang melakukan dalam olahraga yang sama. Sumber data: Telford dan Cunningham (1991)
Gambar 21.7: Fisiologi dan komposisi tubuh atlet pria dan wanita. (a) Kumpulan data mencakup 73 atlet wanita dan 85 atlet profesional pria. (B) Atlet pria cenderung memiliki jumlah sel darah merah (RBC, dilaporkan dalam satuan \ (10 ​​^ {12} \) per liter) lebih tinggi daripada atlet wanita, tetapi tidak ada perbedaan untuk jumlah sel darah putih (WBC, dilaporkan dalam satuan \ (10 ​​^ {9} \) per liter). (c) Atlet pria cenderung memiliki persentase lemak tubuh lebih rendah daripada atlet wanita yang melakukan dalam olahraga yang sama. Sumber data: Telford dan Cunningham ( 1991 )
Gambar 21.8 memperbaiki semua masalah ini. Dalam gambar ini, atlet wanita secara konsisten ditampilkan dalam warna oranye dan di sebelah kiri atlet pria, yang ditampilkan dengan warna biru. Perhatikan betapa lebih mudahnya membaca angka ini daripada Gambar 21.7 . Ketika kami menggunakan bahasa visual yang konsisten, tidak perlu banyak upaya mental untuk menentukan elemen visual dalam panel yang berbeda mewakili wanita dan pria. Gambar 21.7 , di sisi lain, bisa sangat membingungkan. Secara khusus, pada pandangan pertama hal itu dapat menimbulkan kesan bahwa pria cenderung memiliki persentase lemak tubuh yang lebih tinggi daripada wanita. Perhatikan juga bahwa kita hanya membutuhkan satu legenda tunggal dalam Gambar 21.8tetapi membutuhkan dua legenda dalam Gambar 21.7 .Karena bahasa visual konsisten, legenda yang sama berfungsi untuk panel (b) dan (c).
Fisiologi dan komposisi tubuh atlet pria dan wanita. Gambar ini menunjukkan data yang sama persis seperti Gambar 21.7, tetapi sekarang menggunakan bahasa visual yang konsisten. Data untuk atlet wanita selalu ditampilkan di sebelah kiri data yang sesuai untuk atlet pria, dan gender secara konsisten diberi kode warna di seluruh elemen gambar. Sumber data: Telford dan Cunningham (1991)
Gambar 21.8: Fisiologi dan komposisi tubuh atlet pria dan wanita. Gambar ini menunjukkan data yang sama persis seperti Gambar 21.7 , tetapi sekarang menggunakan bahasa visual yang konsisten. Data untuk atlet wanita selalu ditampilkan di sebelah kiri data yang sesuai untuk atlet pria, dan gender secara konsisten diberi kode warna di seluruh elemen gambar.Sumber data: Telford dan Cunningham ( 1991 )
Akhirnya, kita perlu memperhatikan penyelarasan panel gambar individu dalam angka gabungan. Sumbu dan elemen grafis lainnya dari masing-masing panel harus disejajarkan satu sama lain. Mendapatkan perataan yang benar bisa sangat rumit, khususnya jika panel individual disiapkan secara terpisah, mungkin oleh orang yang berbeda dan / atau dalam program yang berbeda, dan kemudian ditempelkan bersama dalam program manipulasi gambar. Untuk menarik perhatian Anda pada masalah keberpihakan seperti itu, Gambar 21.9 menunjukkan variasi Gambar 21.8 di mana sekarang semua elemen gambar sedikit tidak selaras. Saya telah menambahkan garis sumbu ke semua panel pada Gambar 21.9 untuk menekankan masalah pelurusan ini.Perhatikan bagaimana tidak ada garis sumbu yang selaras dengan garis sumbu lainnya untuk panel lain pada gambar.
Variasi Gambar 21.8 di mana semua panel gambar sedikit tidak selaras. Misalignment jelek dan harus dihindari.
Gambar 21.9: Variasi Gambar 21.8 di mana semua panel gambar sedikit tidak selaras. Misalignment jelek dan harus dihindari.

Referensi

Tufte, ER 1990. Membayangkan Informasi . Cheshire, Connecticut: Graphics Press.
Cleveland, W. 1993. "Visualisasi Data." Summit, New Jersey: Hobart Press.
Becker, RA, WS Cleveland, dan M.-J. Shyu. 1996. "Desain Visual dan Kontrol Layar Teralis." Jurnal Statistik Komputasi dan Grafik 5: 123–55.
Wickham, H. 2016. ggplot2: Grafik Elegan untuk Analisis Data. 2nd ed. New York: Springer.
Telford, RD, dan RB Cunningham. 1991. "Jenis Kelamin, Olahraga, dan Ketergantungan Ukuran Tubuh pada Atlet yang Sangat Terlatih." Kedokteran dan Sains dalam Olahraga dan Latihan 23: 788-94.