5 Direktori visualisasi
Bab ini memberikan tinjauan visual yang cepat dari berbagai plot dan grafik yang biasanya digunakan untuk memvisualisasikan data. Ini dimaksudkan baik untuk berfungsi sebagai daftar isi, jika Anda mencari visualisasi tertentu yang namanya mungkin tidak Anda kenal, dan sebagai sumber inspirasi, jika Anda perlu mencari alternatif dari angka-angka yang Anda buat secara rutin.
5.1 Jumlah

Pendekatan yang paling umum untuk memvisualisasikan jumlah (yaitu, nilai numerik yang ditunjukkan untuk beberapa set kategori) menggunakan bilah, baik yang diatur secara vertikal maupun horizontal (Bab 6 ). Namun, alih-alih menggunakan bilah, kita juga dapat menempatkan titik di lokasi di mana bilah yang sesuai akan berakhir (Bab 6 ).

Jika ada dua atau lebih kelompok kategori yang ingin kami tampilkan jumlahnya, kami dapat mengelompokkan atau menumpuk bilah (Bab 6 ). Kami juga dapat memetakan kategori ke sumbu x dan y dan menunjukkan jumlah berdasarkan warna, melalui peta panas (Bab 6 ).
5.2 Distribusi

Histogram dan plot kerapatan (Bab 7 ) memberikan visualisasi paling intuitif dari suatu distribusi, tetapi keduanya membutuhkan pilihan parameter yang sewenang-wenang dan dapat menyesatkan. Kepadatan kumulatif dan plot kuantil-kuantil (qq) (Bab 8 ) selalu mewakili data dengan setia tetapi bisa lebih sulit untuk ditafsirkan.

Plot kotak, biola, bagan strip, dan plot sina berguna ketika kita ingin memvisualisasikan banyak distribusi sekaligus dan / atau jika kita terutama tertarik pada keseluruhan pergeseran di antara distribusi (Bab 9.1 ). Histogram yang bertumpuk dan kepadatan yang tumpang tindih memungkinkan perbandingan yang lebih mendalam dari jumlah distribusi yang lebih kecil, meskipun histogram yang ditumpuk bisa jadi sulit untuk ditafsirkan dan sebaiknya dihindari (Bab 7.2 ). Plot Ridgeline dapat menjadi alternatif yang berguna untuk plot biola dan sering berguna ketika memvisualisasikan jumlah distribusi yang sangat besar atau perubahan distribusi dari waktu ke waktu (Bab 9.2 ).
5.3 Proporsi

Proporsi dapat divisualisasikan sebagai diagram lingkaran, batang berdampingan, atau batang bertumpuk (Bab 10 ), dan seperti dalam hal jumlah, batang dapat disusun baik secara vertikal maupun horizontal. Pie chart menekankan bahwa bagian-bagian individual bertambah menjadi satu dan menyoroti fraksi sederhana. Namun, potongan-potongan individual lebih mudah dibandingkan di bar berdampingan.Bilah bertumpuk terlihat canggung untuk satu set proporsi, tetapi dapat berguna ketika membandingkan beberapa set proporsi (lihat di bawah).

Ketika memvisualisasikan beberapa set proporsi atau perubahan proporsi di seluruh kondisi, diagram lingkaran cenderung tidak efisien dalam ruang dan sering kali mengaburkan hubungan. Bar yang dikelompokkan bekerja dengan baik selama jumlah kondisi yang dibandingkan adalah sedang, dan bar yang bertumpuk dapat bekerja untuk sejumlah besar kondisi. Kepadatan yang ditumpuk (Bab 10 ) sesuai ketika proporsi berubah sepanjang variabel kontinu.

Ketika proporsi ditentukan menurut beberapa variabel pengelompokan, maka plot mosaik, treemaps, atau set paralel adalah pendekatan visualisasi yang berguna (Bab 11). Plot mosaik mengasumsikan bahwa setiap level dari satu variabel pengelompokan dapat dikombinasikan dengan setiap level dari variabel pengelompokan lainnya, sedangkan treemaps tidak membuat asumsi seperti itu. Treemaps bekerja dengan baik bahkan jika subdivisi dari satu kelompok sama sekali berbeda dari subdivisi yang lain. Set paralel bekerja lebih baik daripada plot mosaik atau treemaps ketika ada lebih dari dua variabel pengelompokan.
5.4 x - hubungan y

Scatterplots mewakili visualisasi arketipikal ketika kita ingin menunjukkan satu variabel kuantitatif relatif terhadap yang lain (Bab 12.1 ). Jika kita memiliki tiga variabel kuantitatif, kita dapat memetakan satu ke ukuran titik, membuat varian sebar yang disebut bagan gelembung. Untuk data berpasangan, di mana variabel di sepanjang sumbu x dan sumbu y diukur dalam unit yang sama, umumnya bermanfaat untuk menambahkan garis yang menunjukkan x = y (Bab 12.4 ).Data berpasangan juga dapat ditampilkan sebagai grafik kemiringan titik berpasangan yang dihubungkan oleh garis lurus (Bab 12.4 ).

Untuk sejumlah besar titik, plot pencar biasa dapat menjadi tidak informatif karena overplotting. Dalam hal ini, garis kontur, nampan 2D, atau nampan hex dapat memberikan alternatif (Bab 18 ). Di sisi lain, ketika kita ingin memvisualisasikan lebih dari dua kuantitas, kita dapat memilih untuk memplot koefisien korelasi dalam bentuk korelogram bukannya data mentah yang mendasarinya (Bab 12.2 ).

Ketika sumbu x mewakili waktu atau kuantitas yang meningkat secara ketat seperti dosis perawatan, kita biasanya menggambar grafik garis (Bab 13 ). Jika kita memiliki urutan temporal dari dua variabel respons, kita dapat menggambar scatterplot yang terhubung di mana kita pertama-tama memplot dua variabel respons di sebar sebaran dan kemudian menghubungkan titik-titik yang berkaitan dengan titik waktu yang berdekatan (Bab 13.3 ). Kita dapat menggunakan garis halus untuk mewakili tren dalam dataset yang lebih besar (Bab 14 ).
5.5 Data geospasial

Mode utama menampilkan data geospasial adalah dalam bentuk peta (Bab 15 ). Peta mengambil koordinat pada bola dunia dan memproyeksikannya ke permukaan datar, sehingga bentuk dan jarak di bola bumi diwakili oleh bentuk dan jarak dalam representasi 2D. Selain itu, kami dapat menampilkan nilai data di berbagai wilayah dengan mewarnai wilayah tersebut di peta sesuai dengan data. Peta seperti itu disebut choropleth (Bab 15.3 ). Dalam beberapa kasus, mungkin akan membantu untuk mendistorsi wilayah yang berbeda sesuai dengan jumlah lain (misalnya, jumlah populasi) atau menyederhanakan setiap wilayah menjadi kotak. Visualisasi semacam itu disebut kartogram.
5.6 Ketidakpastian

Baris kesalahan dimaksudkan untuk menunjukkan kisaran nilai yang mungkin untuk beberapa taksiran atau pengukuran. Mereka meluas secara horizontal dan / atau vertikal dari beberapa titik referensi yang mewakili perkiraan atau pengukuran (Bab 16 ). Poin referensi dapat ditampilkan dengan berbagai cara, seperti titik atau batang. Baris kesalahan bergradasi menampilkan beberapa rentang sekaligus, di mana setiap rentang sesuai dengan tingkat kepercayaan yang berbeda. Mereka berlaku beberapa bar kesalahan dengan ketebalan garis yang berbeda diplot satu sama lain.

Untuk mencapai visualisasi yang lebih rinci daripada yang mungkin dilakukan dengan bilah galat atau bilah galat bertingkat, kita dapat memvisualisasikan kepercayaan aktual atau distribusi posterior (Bab 16 ). Strip kepercayaan memberikan gambaran visual yang jelas tentang ketidakpastian tetapi sulit untuk dibaca secara akurat. Mata dan setengah mata menggabungkan bar kesalahan dengan pendekatan untuk memvisualisasikan distribusi (masing-masing biola dan ridgeline), dan dengan demikian menunjukkan rentang yang tepat untuk beberapa tingkat kepercayaan dan distribusi ketidakpastian keseluruhan. Plot dot kuantil dapat berfungsi sebagai visualisasi alternatif dari distribusi ketidakpastian (Bab 16.1 ). Dengan menunjukkan distribusi dalam unit diskrit, plot titik kuantil tidak setepat tetapi dapat lebih mudah dibaca daripada distribusi kontinu yang ditunjukkan oleh plot biola atau punggungan.

Untuk grafik garis halus, ekivalen dari bar kesalahan adalah pita kepercayaan (Bab 16.3 ). Ini menunjukkan rentang nilai yang mungkin dilewati garis pada tingkat kepercayaan tertentu. Seperti dalam kasus bar kesalahan, kita bisa menggambar pita kepercayaan bertingkat yang menunjukkan beberapa tingkat kepercayaan sekaligus. Kami juga dapat menampilkan masing-masing undian yang dipasang sebagai pengganti atau sebagai tambahan dari band kepercayaan diri.
