2 Visualisasi data: Memetakan data ke estetika
Setiap kali kita memvisualisasikan data, kita mengambil nilai data dan mengubahnya secara sistematis dan logis menjadi elemen visual yang membentuk grafik akhir. Meskipun ada banyak jenis visualisasi data yang berbeda, dan pada pandangan pertama plot pencar, diagram lingkaran, dan peta panas tampaknya tidak memiliki banyak kesamaan, semua visualisasi ini dapat dijelaskan dengan bahasa umum yang menangkap bagaimana data nilai diubah menjadi gumpalan tinta di atas kertas atau piksel berwarna di layar. Wawasan utama adalah sebagai berikut: Semua visualisasi data memetakan nilai data ke dalam fitur yang dapat diukur dari grafik yang dihasilkan. Kami menyebut fitur-fitur ini sebagai estetika.
2.1 Estetika dan tipe data
Estetika menggambarkan setiap aspek elemen grafis yang diberikan. Beberapa contoh disediakan pada Gambar 2.1 .Komponen penting dari setiap elemen grafis tentu saja posisinya, yang menggambarkan di mana elemen tersebut berada. Dalam grafik 2d standar, kami menggambarkan posisi dengan nilai x dan y , tetapi sistem koordinat lainnya dan visualisasi satu atau tiga dimensi dimungkinkan.Selanjutnya, semua elemen grafis memiliki bentuk , ukuran , dan warna. Bahkan jika kita sedang mempersiapkan gambar hitam-putih, elemen grafis harus memiliki warna agar terlihat, misalnya hitam jika latar belakangnya putih atau putih jika latar belakangnya hitam. Akhirnya, sejauh kita menggunakan garis untuk memvisualisasikan data, garis-garis ini mungkin memiliki pola lebar atau garis putus-putus yang berbeda. Di luar contoh yang ditunjukkan pada Gambar 2.1 , ada banyak estetika lain yang mungkin kita temui dalam visualisasi data.Sebagai contoh, jika kita ingin menampilkan teks, kita mungkin harus menentukan kelompok font, wajah font, dan ukuran font, dan jika objek grafis tumpang tindih, kita mungkin harus menentukan apakah mereka sebagian transparan.

Gambar 2.1: Estetika yang umum digunakan dalam visualisasi data: posisi, bentuk, ukuran, warna, lebar garis, jenis garis. Beberapa dari estetika ini dapat mewakili data kontinu dan diskrit (posisi, ukuran, lebar garis, warna) sementara yang lain biasanya hanya dapat mewakili data diskrit (bentuk, jenis garis).
Semua estetika jatuh ke dalam salah satu dari dua kelompok: Mereka yang dapat mewakili data terus menerus dan mereka yang tidak bisa. Nilai data kontinu adalah nilai yang ada antara perantara halus ada. Misalnya, durasi waktu adalah nilai kontinu. Antara dua durasi, katakanlah 50 detik dan 51 detik, ada banyak perantara, seperti 50,5 detik, 50,51 detik, 50,50001 detik, dan seterusnya. Sebaliknya, jumlah orang di sebuah ruangan adalah nilai tersendiri. Sebuah kamar dapat menampung 5 orang atau 6 orang, tetapi tidak 5,5. Untuk contoh pada Gambar 2.1 , posisi, ukuran, warna, dan lebar garis dapat mewakili data kontinu, tetapi bentuk dan tipe garis biasanya hanya dapat mewakili data diskrit.
Selanjutnya kita akan mempertimbangkan jenis data yang mungkin ingin kami wakili dalam visualisasi kami. Anda mungkin menganggap data sebagai angka, tetapi nilai numerik hanya dua dari beberapa jenis data yang mungkin kita temui. Selain nilai numerik kontinu dan diskrit, data dapat datang dalam bentuk kategori diskrit, dalam bentuk tanggal atau waktu, dan sebagai teks (Tabel 2.1 ). Ketika data numerik, kami juga menyebutnya kuantitatif dan ketika itu kategorikal, kami menyebutnya kualitatif . Variabel yang memegang data kualitatif adalah faktor , dan berbagai kategori disebut level . Level-level dari suatu faktor paling umum tanpa keteraturan (seperti dalam contoh “anjing”, “kucing”, “ikan” pada Tabel 2.1 ), tetapi faktor-faktor juga dapat dipesan, ketika ada suatu urutan intrinsik di antara level-level faktor (seperti pada contoh "baik", "adil", "miskin" pada Tabel 2.1 ).
| Jenis variabel | Contohnya | Skala yang sesuai | Deskripsi |
|---|---|---|---|
| kuantitatif / numerik yang berkelanjutan | 1.3, 5.7, 83, 1.5x10 -2 | kontinu | Nilai numerik sewenang-wenang. Ini bisa berupa bilangan bulat, bilangan rasional, atau bilangan real. |
| diskrit kuantitatif / numerik | 1, 2, 3, 4 | diskrit | Angka dalam satuan diskrit. Ini adalah yang paling umum tetapi tidak harus bilangan bulat.Sebagai contoh, angka 0,5, 1,0, 1,5 juga dapat diperlakukan sebagai diskrit jika nilai menengah tidak ada dalam dataset yang diberikan. |
| kualitatif / kategoris tidak teratur | anjing, kucing, ikan | diskrit | Kategori tanpa pesanan.Ini adalah kategori diskrit dan unik yang tidak memiliki urutan bawaan.Variabel-variabel ini juga disebut faktor . |
| dipesan secara kualitatif / kategoris | baik, adil, miskin | diskrit | Kategori dengan pesanan.Ini adalah kategori diskrit dan unik dengan pesanan.Misalnya, "adil" selalu terletak di antara "baik" dan "miskin". Variabel-variabel ini juga disebut faktor keteraturan . |
| tanggal atau waktu | 5 Januari 2018, 8:03 pagi | terus menerus atau terpisah | Hari dan / atau waktu tertentu. Juga tanggal umum, seperti 4 Juli atau 25 Desember (tanpa tahun). |
| teks | Rubah cokelat cepat melompati anjing malas. | tidak ada, atau diskrit | Teks bentuk bebas. Dapat diperlakukan sebagai kategori jika diperlukan. |
Untuk memeriksa contoh konkret dari berbagai jenis data ini, lihat Tabel 2.2 . Ini menunjukkan beberapa baris pertama dari dataset yang memberikan suhu normal harian (suhu harian rata-rata lebih dari 30 tahun) untuk empat lokasi AS. Tabel ini berisi lima variabel: bulan, hari, lokasi, ID stasiun, dan suhu (dalam derajat Fahrenheit). Bulan adalah faktor yang diurutkan, hari adalah nilai numerik yang terpisah, lokasi adalah faktor yang tidak berurutan, ID stasiun juga merupakan faktor yang tidak berurutan, dan suhu adalah nilai numerik kontinu.
| Bulan | Hari | Lokasi | ID stasiun | Suhu |
|---|---|---|---|---|
| Jan | 1 | Chicago | USW00014819 | 25.6 |
| Jan | 1 | San Diego | USW00093107 | 55.2 |
| Jan | 1 | Houston | USW00012918 | 53.9 |
| Jan | 1 | Lembah kematian | USC00042319 | 51.0 |
| Jan | 2 | Chicago | USW00014819 | 25.5 |
| Jan | 2 | San Diego | USW00093107 | 55.3 |
| Jan | 2 | Houston | USW00012918 | 53.8 |
| Jan | 2 | Lembah kematian | USC00042319 | 51.2 |
| Jan | 3 | Chicago | USW00014819 | 25.3 |
| Jan | 3 | San Diego | USW00093107 | 55.3 |
| Jan | 3 | Lembah kematian | USC00042319 | 51.3 |
| Jan | 3 | Houston | USW00012918 | 53.8 |
2.2 Timbangan memetakan nilai data ke estetika
Untuk memetakan nilai data ke estetika, kita perlu menentukan nilai data mana yang sesuai dengan nilai estetika tertentu. Misalnya, jika grafik kita memiliki sumbu x , maka kita perlu menentukan nilai data mana yang jatuh ke posisi tertentu di sepanjang sumbu ini. Demikian pula, kita mungkin perlu menentukan nilai data mana yang diwakili oleh bentuk atau warna tertentu. Pemetaan antara nilai data dan nilai estetika ini dibuat melalui skala . Skala mendefinisikan pemetaan unik antara data dan estetika (Gambar 2.2 ). Yang penting, skala harus satu-ke-satu, sehingga untuk setiap nilai data tertentu ada tepat satu nilai estetika dan sebaliknya. Jika skala bukan satu-ke-satu, maka visualisasi data menjadi ambigu.

Gambar 2.2: Timbangan mengaitkan nilai data dengan estetika. Di sini, angka 1 hingga 4 telah dipetakan ke skala posisi, skala bentuk, dan skala warna. Untuk setiap skala, setiap angka sesuai dengan posisi, bentuk, atau warna yang unik dan sebaliknya.
Mari kita praktikkan. Kita dapat mengambil dataset yang ditunjukkan pada Tabel 2.2 , memetakan suhu ke sumbu y , hari tahun ke sumbu x , lokasi ke warna, dan memvisualisasikan estetika ini dengan garis padat. Hasilnya adalah plot garis standar yang menunjukkan suhu normal di empat lokasi saat mereka berubah sepanjang tahun (Gambar 2.3 ).

Gambar 2.3: Suhu normal harian untuk empat lokasi terpilih di AS. Suhu dipetakan ke sumbu y , hari dalam setahun ke sumbu x , dan lokasi untuk warna garis. Sumber data: NOAA.
Gambar 2.3 adalah visualisasi yang cukup standar untuk kurva temperatur dan kemungkinan visualisasi yang akan dipilih sebagian besar ilmuwan secara intuitif terlebih dahulu.Namun, terserah kita variabel mana yang kita petakan.Sebagai contoh, alih-alih memetakan suhu pada sumbu ydan lokasi ke warna, kita dapat melakukan yang sebaliknya.Karena sekarang variabel kunci yang menarik (suhu) ditampilkan sebagai warna, kita perlu menunjukkan area berwarna yang cukup besar untuk warna untuk menyampaikan informasi yang berguna (Stone, Albers Szafir, dan Setlur 2014 ) . Oleh karena itu, untuk visualisasi ini saya memilih kotak daripada garis, satu untuk setiap bulan dan lokasi, dan saya telah mewarnainya dengan suhu rata-rata normal untuk setiap bulan (Gambar 2.4 ).

Gambar 2.4: Suhu rata-rata normal bulanan untuk empat lokasi di AS. Sumber data: NOAA
Saya ingin menekankan bahwa Gambar 2.4 menggunakan dua skala posisi (bulan sepanjang sumbu x dan lokasi sepanjang sumbu y ) tetapi tidak ada skala kontinu. Bulan adalah faktor yang dipesan dengan 12 level dan lokasi adalah faktor yang tidak berurutan dengan empat level. Oleh karena itu, dua skala posisi keduanya terpisah. Untuk skala posisi diskrit, kami biasanya menempatkan berbagai tingkat faktor pada jarak yang sama di sepanjang sumbu. Jika faktor dipesan (seperti kasus di sini untuk bulan), maka level harus ditempatkan dalam urutan yang sesuai. Jika faktornya tidak berurutan (seperti halnya kasus untuk lokasi), maka pesanannya sewenang-wenang, dan kita dapat memilih pesanan apa pun yang kita inginkan. Saya telah memesan lokasi dari keseluruhan terdingin (Chicago) hingga terpanas terpanas (Death Valley) untuk menghasilkan warna mengejutkan yang menyenangkan. Namun, saya bisa memilih urutan lain dan angka tersebut akan sama-sama valid.
Angka 2.3 dan 2.4 menggunakan total tiga skala, skala dua posisi dan satu skala warna. Ini adalah jumlah skala tipikal untuk visualisasi dasar, tetapi kita dapat menggunakan lebih dari tiga skala sekaligus. Gambar 2.5 menggunakan lima skala, dua skala posisi, satu skala warna, satu skala ukuran, dan satu skala bentuk, dan semua skala mewakili variabel yang berbeda dari dataset.

Gambar 2.5: Efisiensi bahan bakar versus perpindahan, untuk 32 mobil (model 1973-74). Gambar ini menggunakan lima skala terpisah untuk merepresentasikan data: (i) sumbu x (perpindahan); (ii) sumbu y (efisiensi bahan bakar); (iii) warna titik data (daya); (iv) ukuran titik data (berat); dan (v) bentuk titik data (jumlah silinder). Empat dari lima variabel yang ditampilkan (perpindahan, efisiensi bahan bakar, daya, dan berat) bersifat numerik kontinu. Yang tersisa (jumlah silinder) dapat dianggap diskrit numerik atau kualitatif. Sumber data: Trend Motor , 1974.
Referensi
Stone, M., D. Albers Szafir, dan V. Setlur. 2014. "Model Rekayasa untuk Perbedaan Warna sebagai Fungsi Ukuran."Di Konferensi Warna dan Gambar 22 . Masyarakat untuk Sains dan Teknologi Pencitraan.
