11 Memvisualisasikan proporsi bersarang
Dalam bab sebelumnya, saya membahas skenario di mana dataset dipecah menjadi beberapa bagian yang didefinisikan oleh satu variabel kateologis, seperti partai politik, perusahaan, atau status kesehatan. Namun, tidak jarang kami ingin menelusuri lebih jauh dan memecah dataset dengan beberapa variabel kategorikal sekaligus. Misalnya, dalam hal kursi parlemen, kita bisa tertarik pada proporsi kursi berdasarkan partai dan jenis kelamin perwakilan.Demikian pula, dalam kasus status kesehatan masyarakat, kita dapat bertanya bagaimana status kesehatan semakin terpecah berdasarkan status perkawinan. Saya merujuk skenario ini sebagai proporsi bersarang, karena setiap variabel kategori tambahan yang kami tambahkan membuat subdivisi yang lebih baik dari data yang bersarang dalam proporsi sebelumnya. Ada beberapa pendekatan yang sesuai untuk memvisualisasikan proporsi bersarang tersebut, termasuk plot mosaik, treemaps, dan set paralel.
11.1 Proporsi bersarang salah
Saya akan mulai dengan menunjukkan dua pendekatan yang cacat untuk memvisualisasikan proporsi bersarang.Sementara pendekatan ini mungkin tampak tidak masuk akal bagi ilmuwan data yang berpengalaman, saya telah melihatnya di alam liar dan karena itu berpikir mereka memerlukan diskusi. Sepanjang bab ini, saya akan bekerja dengan dataset 106 jembatan di Pittsburgh. Dataset ini berisi berbagai informasi tentang jembatan, seperti bahan dari mana jembatan itu dibangun (baja, besi, atau kayu) dan tahun saat jembatan itu didirikan. Berdasarkan tahun ereksi, jembatan dikelompokkan ke dalam kategori yang berbeda, seperti jembatan kerajinan yang didirikan sebelum 1870 dan jembatan modern yang didirikan setelah 1940.
Mari kita asumsikan kita ingin memvisualisasikan baik fraksi jembatan yang terbuat dari baja, besi, atau kayu dan fraksi yang merupakan kerajinan atau modern. Kita mungkin tergoda untuk melakukannya dengan menggambar diagram lingkaran pai (Gambar 11.1 ). Namun, visualisasi ini tidak valid. Semua irisan dalam diagram lingkaran harus berjumlah hingga 100%, dan di sini irisan menambahkan hingga 135%.Kami mencapai persentase total lebih dari 100% karena kami adalah penghitungan ganda jembatan. Setiap jembatan dalam dataset terbuat dari baja, besi, atau kayu, jadi ketiga irisan pie ini sudah mewakili 100% jembatan. Setiap kerajinan atau jembatan modern juga merupakan jembatan baja, besi, atau kayu, dan karenanya dihitung dua kali dalam diagram lingkaran.

Gambar 11.1: Kerusakan jembatan di Pittsburgh oleh bahan konstruksi (baja, kayu, besi) dan berdasarkan tanggal konstruksi (kerajinan, sebelum 1870, dan modern, setelah 1940), ditampilkan sebagai diagram lingkaran.Angka mewakili persentase jembatan dari jenis tertentu di antara semua jembatan. Angka ini tidak valid, karena persentase bertambah hingga lebih dari 100%. Ada tumpang tindih antara bahan konstruksi dan tanggal konstruksi. Misalnya, semua jembatan modern terbuat dari baja, dan sebagian besar jembatan kerajinan terbuat dari kayu. Sumber data: Yoram Reich dan Steven J. Fenves, melalui Repositori Pembelajaran Mesin UCI (Dua dan Karra Taniskidou 2017 )
Penghitungan ganda tidak selalu menjadi masalah jika kita memilih visualisasi yang tidak memerlukan proporsi untuk ditambahkan ke 100%. Sebagaimana dibahas dalam bab sebelumnya, bilah berdampingan memenuhi kriteria ini. Kami dapat menunjukkan berbagai proporsi jembatan sebagai batang dalam satu plot, dan plot ini secara teknis tidak salah (Gambar 11.2 ). Namun demikian, saya telah menamakannya "buruk", karena tidak segera menunjukkan bahwa ada tumpang tindih di antara beberapa kategori yang ditampilkan.Seorang pengamat biasa dapat menyimpulkan dari Gambar 11.2 bahwa ada lima kategori jembatan yang terpisah, dan bahwa, misalnya, jembatan modern tidak terbuat dari baja atau dari kayu atau besi.

Gambar 11.2: Kerusakan jembatan di Pittsburgh oleh bahan konstruksi (baja, kayu, besi) dan berdasarkan tanggal konstruksi (kerajinan, sebelum 1870, dan modern, setelah 1940), ditampilkan sebagai plot batang. Tidak seperti Gambar 11.1 , visualisasi ini tidak salah secara teknis, karena itu tidak menyiratkan bahwa ketinggian bar perlu ditambah hingga 100%.Namun, itu juga tidak secara jelas menunjukkan tumpang tindih di antara kelompok-kelompok yang berbeda, dan karena itu saya menamakannya "buruk". Sumber data: Yoram Reich dan Steven J. Fenves, melalui Repositori Pembelajaran Mesin UCI (Dua dan Karra Taniskidou 2017 )
11.2 Plot dan treemaps mosaik
Setiap kali kita memiliki kategori yang tumpang tindih, yang terbaik adalah menunjukkan dengan jelas bagaimana mereka berhubungan satu sama lain. Ini dapat dilakukan dengan plot mosaik (Gambar 11.3 ). Pada pandangan pertama, plot mosaik terlihat mirip dengan plot batang bertumpuk (misalnya, Gambar 10.5 ). Namun, tidak seperti pada plot batang bertumpuk, pada plot mosaik baik ketinggian dan lebar masing-masing area yang diarsir bervariasi. Perhatikan bahwa pada Gambar 11.3 , kita melihat dua era konstruksi tambahan, muncul (dari 1870 hingga 1889) dan dewasa (1890 hingga 1939). Dalam kombinasi dengan kerajinan dan modern, era konstruksi ini mencakup semua jembatan dalam dataset, seperti halnya ketiga bahan bangunan. Ini adalah kondisi kritis untuk plot mosaik: Setiap variabel kategori yang ditampilkan harus mencakup semua pengamatan dalam dataset.

Gambar 11.3: Kerusakan jembatan di Pittsburgh oleh bahan konstruksi (baja, kayu, besi) dan oleh era konstruksi (kerajinan, yang muncul, dewasa, modern), ditampilkan sebagai plot mosaik. Lebar masing-masing persegi panjang sebanding dengan jumlah jembatan yang dibangun pada era itu, dan ketinggian sebanding dengan jumlah jembatan yang dibangun dari bahan itu. Angka mewakili jumlah jembatan dalam setiap kategori. Sumber data: Yoram Reich dan Steven J. Fenves, melalui Repositori Pembelajaran Mesin UCI (Dua dan Karra Taniskidou 2017 )
Untuk menggambar plot mosaik, kita mulai dengan menempatkan satu variabel kategori di sepanjang sumbu x(di sini, era pembangunan jembatan) dan membagi sumbu xdengan proporsi relatif yang membentuk kategori. Kami kemudian menempatkan variabel kategori lainnya di sepanjang sumbu y (di sini, bahan bangunan) dan, dalam setiap kategori di sepanjang sumbu x , membagi sumbu ydengan proporsi relatif yang membentuk kategori variabel y .Hasilnya adalah satu set persegi panjang yang luasnya proporsional dengan jumlah kasus yang mewakili setiap kemungkinan kombinasi dari dua variabel kategori.
Dataset jembatan juga dapat divisualisasikan dalam format terkait tetapi berbeda yang disebut treemap . Dalam sebuah treemap, seperti halnya pada plot mosaik, kami mengambil persegi panjang terlampir dan membaginya menjadi persegi panjang yang lebih kecil yang wilayahnya mewakili proporsi.Namun, metode penempatan persegi panjang yang lebih kecil ke yang lebih besar berbeda dibandingkan dengan plot mosaik. Dalam treemap, kita secara bersarang persegi panjang bersarang di dalam satu sama lain. Misalnya, dalam hal jembatan Pittsburgh, pertama-tama kita dapat membagi luas total menjadi tiga bagian yang mewakili tiga bahan bangunan, kayu, besi, dan baja. Kemudian, kami membagi masing-masing area lebih jauh untuk mewakili era konstruksi yang diwakili untuk setiap bahan bangunan (Gambar 11.4 ).Pada prinsipnya, kita bisa terus bersarang subdivisi yang lebih kecil di dalam satu sama lain, meskipun relatif cepat hasilnya akan menjadi sulit atau membingungkan.

Gambar 11.4: Kerusakan jembatan di Pittsburgh oleh bahan konstruksi (baja, kayu, besi) dan oleh era konstruksi (kerajinan, yang muncul, dewasa, modern), ditampilkan sebagai treemap. Luas setiap persegi panjang sebanding dengan jumlah jembatan jenis itu. Sumber data: Yoram Reich dan Steven J. Fenves, melalui Repositori Pembelajaran Mesin UCI (Dua dan Karra Taniskidou 2017 )
Sementara plot mosaik dan treemaps terkait erat, mereka memiliki titik penekanan dan area aplikasi yang berbeda. Di sini, plot mosaik (Gambar 11.3 ) menekankan evolusi temporal dalam penggunaan bahan bangunan dari era kerajinan ke era modern, sedangkan treemap (Gambar 11.4 ) menekankan jumlah total jembatan baja, besi, dan kayu.
Secara lebih umum, plot mosaik mengasumsikan bahwa semua proporsi yang ditunjukkan dapat diidentifikasi melalui kombinasi dua atau lebih variabel kategori ortogonal. Sebagai contoh, pada Gambar 11.3 , setiap jembatan dapat digambarkan dengan pilihan bahan bangunan (kayu, besi, baja) dan pilihan periode waktu (kerajinan, kemunculan, dewasa, modern). Terlebih lagi, pada prinsipnya setiap kombinasi dari kedua variabel ini dimungkinkan, meskipun dalam praktiknya tidak harus demikian. (Di sini, tidak ada jembatan kerajinan baja dan tidak ada jembatan modern dari kayu atau besi.) Sebaliknya, persyaratan seperti itu tidak ada untuk treemaps. Faktanya, treemaps cenderung berfungsi dengan baik ketika proporsinya tidak dapat digambarkan secara bermakna dengan menggabungkan beberapa variabel kategori. Sebagai contoh, kita dapat memisahkan AS menjadi empat wilayah (Barat, Timur Laut, Midwest, dan Selatan) dan masing-masing wilayah menjadi negara bagian yang berbeda, tetapi negara bagian di satu wilayah tidak memiliki hubungan dengan negara bagian di wilayah lain (Gambar 11.5 ).

Gambar 11.5: Negara-negara di AS divisualisasikan sebagai treemap.Setiap persegi panjang mewakili satu negara, dan luas setiap persegi panjang sebanding dengan luas permukaan tanah negara bagian. Negara-negara dikelompokkan menjadi empat wilayah, Barat, Timur Laut, Midwest, dan Selatan. Pewarnaan sebanding dengan jumlah penghuni di setiap negara bagian, dengan warna yang lebih gelap mewakili jumlah penghuni yang lebih besar. Sumber data: Sensus AS 2010
Baik plot mosaik dan treemaps umumnya digunakan dan dapat menerangi, tetapi mereka memiliki keterbatasan yang sama seperti bar bertumpuk (Bab 10.1 ): Perbandingan langsung antara kondisi bisa sulit, karena persegi panjang yang berbeda tidak harus berbagi garis dasar yang memungkinkan perbandingan visual. Dalam plot atau treemaps mosaik, masalah ini diperburuk oleh fakta bahwa bentuk-bentuk persegi panjang yang berbeda dapat bervariasi. Misalnya, ada jumlah jembatan besi (tiga) yang sama di antara jembatan yang muncul dan yang sudah matang, tetapi ini sulit untuk dilihat dalam plot mosaik (Gambar 11.3 ), karena dua persegi panjang yang mewakili kedua kelompok dari tiga jembatan ini seluruhnya memiliki berbeda bentuk. Belum tentu ada solusi untuk masalah ini - memvisualisasikan proporsi bersarang bisa rumit. Kapan pun memungkinkan, saya sarankan untuk menunjukkan jumlah atau persentase aktual pada plot, sehingga pembaca dapat memverifikasi bahwa interpretasi intuitif mereka tentang area yang diarsir sudah benar.
11.3 Pai bersarang
Pada awal bab ini, saya memvisualisasikan dataset jembatan dengan diagram lingkaran cacat (Gambar 11.1 ), dan kemudian saya berpendapat bahwa plot mosaik atau treemap lebih tepat. Namun, kedua tipe plot terakhir ini terkait erat dengan diagram lingkaran, karena semuanya menggunakan area untuk mewakili nilai data. Perbedaan utama adalah jenis sistem koordinat, kutub dalam kasus diagram lingkaran versus kartesius dalam kasus plot mosaik atau treemap.Hubungan yang dekat antara berbagai plot ini menimbulkan pertanyaan apakah beberapa varian diagram lingkaran dapat digunakan untuk memvisualisasikan kumpulan data ini.
Ada dua kemungkinan. Pertama, kita dapat menggambar diagram lingkaran yang terdiri dari lingkaran dalam dan luar (Gambar 11.6 ). Lingkaran dalam menunjukkan rincian data oleh satu variabel (di sini, bahan bangunan) dan lingkaran luar menunjukkan rincian setiap irisan lingkaran dalam oleh variabel kedua (di sini, era pembangunan jembatan).Visualisasi ini masuk akal tetapi saya merasa keberatan, dan karena itu saya menamakannya "jelek". Yang paling penting, dua lingkaran terpisah mengaburkan fakta bahwa setiap jembatan dalam dataset memiliki bahan bangunan dan era pembangunan jembatan. Akibatnya, dalam Gambar 11.6 , kami masih menghitung dua jembatan masing-masing. Jika kita menjumlahkan semua angka yang ditunjukkan dalam dua lingkaran kita memperoleh 212, yang merupakan dua kali jumlah jembatan dalam dataset.

Gambar 11.6: Kerusakan jembatan di Pittsburgh oleh bahan konstruksi (baja, kayu, besi, lingkaran dalam) dan berdasarkan era konstruksi (kerajinan, kemunculan, dewasa, modern, lingkaran luar). Angka mewakili jumlah jembatan dalam setiap kategori. Sumber data: Yoram Reich dan Steven J. Fenves, melalui Repositori Pembelajaran Mesin UCI (Dua dan Karra Taniskidou 2017 )
Sebagai alternatif, pertama-tama kita dapat mengiris pai menjadi potongan-potongan yang mewakili proporsi berdasarkan satu variabel (misalnya bahan) dan kemudian membagi irisan-irisan ini lebih lanjut sesuai dengan variabel lain (era konstruksi) (Gambar 11.7 ). Dengan cara ini, sebenarnya kita membuat diagram lingkaran normal dengan sejumlah besar irisan pie kecil. Namun, kita dapat menggunakan pewarna untuk menunjukkan sifat bersarang pai. Pada Gambar 11.7 , warna hijau mewakili jembatan kayu, warna oranye mewakili jembatan besi, dan warna biru mewakili jembatan baja. Kegelapan dari setiap warna mewakili era konstruksi, dengan warna yang lebih gelap sesuai dengan jembatan yang baru dibangun. Dengan menggunakan skala warna bersarang dengan cara ini, kita dapat memvisualisasikan penguraian data baik oleh variabel primer (bahan bangunan) dan oleh variabel sekunder (era konstruksi).

Gambar 11.7: Kerusakan jembatan di Pittsburgh oleh bahan konstruksi (baja, kayu, besi) dan oleh era konstruksi (kerajinan, kemunculan, dewasa, modern). Angka mewakili jumlah jembatan dalam setiap kategori. Sumber data: Yoram Reich dan Steven J. Fenves, melalui Repositori Pembelajaran Mesin UCI (Dua dan Karra Taniskidou 2017 )
Diagram pie pada Gambar 11.7 menunjukkan visualisasi yang wajar dari dataset jembatan, tetapi dalam perbandingan langsung dengan treemap yang setara (Gambar 11.4 ) Saya pikir treemap lebih disukai. Pertama, bentuk segi empat dari treemap memungkinkannya memanfaatkan ruang yang tersedia dengan lebih baik. Gambar 11.4 dan 11.7 berukuran persis sama, tetapi dalam Gambar 11.7 banyak gambar yang terbuang sebagai ruang putih. Gambar 11.4 , treemap, hampir tidak memiliki ruang putih berlebihan. Ini penting karena memungkinkan saya untuk menempatkan label di dalam area teduh di treemap. Label di dalam selalu membuat unit visual yang lebih kuat dengan data daripada label luar dan karenanya lebih disukai. Kedua, beberapa irisan pai pada Gambar 11.7 sangat tipis dan sulit dilihat. Sebaliknya, setiap kotak pada Gambar 11.4 berukuran cukup masuk akal.
11.4 Set paralel
Ketika kita ingin memvisualisasikan proporsi yang dijelaskan oleh lebih dari dua variabel kategori, plot mosaik, treemaps, dan diagram lingkaran semua dapat dengan cepat menjadi sulit. Alternatif yang layak dalam hal ini dapat berupa plot set paralel . Dalam plot set paralel, kami menunjukkan bagaimana kumpulan data total dipecah oleh masing-masing variabel kategorikal individu, dan kemudian kami menggambar garis berarsir yang menunjukkan bagaimana subkelompok saling berhubungan. Lihat Gambar 11.8sebagai contoh. Dalam gambar ini, saya telah memecah dataset jembatan dengan bahan konstruksi (besi, baja, kayu), panjang setiap jembatan (panjang, sedang, pendek), era di mana setiap jembatan dibangun (kerajinan, kemunculan, dewasa, modern ), dan sungai yang terbentang setiap jembatan (Allegheny, Monongahela, Ohio). Pita yang menghubungkan set paralel diwarnai oleh bahan konstruksi.Ini menunjukkan, misalnya, bahwa jembatan kayu sebagian besar berukuran sedang (dengan beberapa jembatan pendek), sebagian besar didirikan selama periode kerajinan (dengan beberapa jembatan dengan panjang sedang yang didirikan selama periode muncul dan matang), dan bentang terutama Sungai Allegheny (dengan beberapa jembatan kerajinan yang membentang di sungai Monongahela).Sebaliknya, jembatan besi memiliki panjang sedang, terutama didirikan selama periode kerajinan, dan merentang sungai Allegheny dan Monongahela dalam proporsi yang kira-kira sama.

Gambar 11.8: Kerusakan jembatan di Pittsburgh berdasarkan bahan konstruksi, panjang, era konstruksi, dan sungai yang terbentang, ditunjukkan sebagai plot set paralel. Pewarnaan pita menyoroti bahan konstruksi jembatan yang berbeda. Sumber data: Yoram Reich dan Steven J. Fenves, melalui Repositori Pembelajaran Mesin UCI (Dua dan Karra Taniskidou 2017 )
Visualisasi yang sama terlihat sangat berbeda jika kita diwarnai dengan kriteria yang berbeda, misalnya dengan sungai (Gambar 11.9 ). Angka ini secara visual sibuk, dengan banyak pita silang, tetapi kita melihat bahwa hampir semua jembatan jenis apa pun dapat ditemukan membentang di setiap sungai.

Gambar 11.9: Kerusakan jembatan di Pittsburgh berdasarkan bahan konstruksi, panjang, era konstruksi, dan sungai yang terbentang. Gambar ini mirip dengan Gambar 11.8 tetapi sekarang pewarnaan pita menyoroti sungai yang terbentang oleh jembatan yang berbeda. Angka ini diberi label "jelek" karena susunan pita berwarna di tengah-tengah gambar sangat sibuk, dan juga karena pita perlu dibaca dari kanan ke kiri. Sumber data: Yoram Reich dan Steven J. Fenves, melalui Repositori Pembelajaran Mesin UCI (Dua dan Karra Taniskidou 2017 )
Saya memberi label Gambar 11.9 sebagai "jelek" karena saya pikir itu terlalu rumit dan membingungkan. Pertama, karena kita terbiasa membaca dari kiri ke kanan saya pikir set yang menentukan pewarnaan harus muncul jauh ke kiri, bukan di kanan. Ini akan membuatnya lebih mudah untuk melihat di mana pewarnaan itu berasal dan bagaimana mengalir melalui dataset. Kedua, itu ide yang baik untuk mengubah urutan set sedemikian rupa sehingga jumlah pita silang diminimalkan.Mengikuti prinsip-prinsip ini, saya sampai pada Gambar 11.10, yang saya anggap lebih disukai daripada Gambar 11.9 .

Gambar 11.10: Kerusakan jembatan di Pittsburgh oleh sungai, era konstruksi, panjang, dan bahan konstruksi. Gambar ini berbeda dari Gambar 11.9 hanya dalam urutan set paralel. Namun, urutan hasil modifikasi dalam angka yang lebih mudah dibaca dan kurang sibuk. Sumber data: Yoram Reich dan Steven J. Fenves, melalui Repositori Pembelajaran Mesin UCI (Dua dan Karra Taniskidou 2017 )
Referensi
Dua, D., dan E. Karra Taniskidou. 2017. "Repositori Pembelajaran Mesin UCI." University of California, Irvine, Sekolah Informasi; Ilmu Komputer.https://archive.ics.uci.edu/ml .
