3 Koordinasikan sistem dan sumbu
Untuk membuat segala jenis visualisasi data, kita perlu mendefinisikan skala posisi, yang menentukan di mana dalam grafik nilai data yang berbeda berada. Kami tidak dapat memvisualisasikan data tanpa menempatkan titik data yang berbeda di lokasi yang berbeda, bahkan jika kami hanya mengaturnya di samping satu sama lain sepanjang garis. Untuk visualisasi 2d reguler, dua angka diperlukan untuk menentukan titik secara unik, dan oleh karena itu kita memerlukan dua skala posisi. Dua skala ini biasanya tetapi tidak selalu sumbu x dan y plot. Kita juga harus menentukan susunan geometris relatif dari skala ini. Secara konvensional, sumbu x berjalan secara horizontal dan sumbu y secara vertikal, tetapi kita dapat memilih pengaturan lain. Sebagai contoh, kita bisa menjalankan sumbu y pada sudut akut relatif terhadap sumbu x , atau kita bisa memiliki satu sumbu berjalan dalam lingkaran dan yang lainnya berjalan secara radial. Kombinasi satu set skala posisi dan susunan geometrik relatifnya disebut sistem koordinat.
3.1 Koordinat Kartesius
Sistem koordinat yang paling banyak digunakan untuk visualisasi data adalah sistem koordinat Cartesian 2d, di mana setiap lokasi ditentukan secara unik oleh nilai x dan nilai y . Sumbu x dan y berjalan secara ortogonal satu sama lain, dan nilai data ditempatkan dalam jarak genap di kedua sumbu (Gambar 3.1 ). Dua sumbu adalah skala posisi kontinu, dan mereka dapat mewakili bilangan real positif dan negatif. Untuk menentukan sepenuhnya sistem koordinat, kita perlu menentukan rentang angka yang dicakup masing-masing sumbu. Pada Gambar 3.1 , sumbu x beroperasi dari -2.2 hingga 3.2 dan sumbu y berjalan dari -2.2 ke 2.2. Setiap nilai data antara batas sumbu ini ditempatkan di lokasi masing-masing dalam plot. Nilai data apa pun di luar batas sumbu dibuang.

Gambar 3.1: Sistem koordinat kartesius standar. Sumbu horizontal secara konvensional disebut x dan sumbu vertikal y . Kedua sumbu membentuk kisi dengan jarak yang sama. Di sini, garis x dan y dipisahkan oleh satuan satu.Titik (2, 1) terletak dua unit x ke kanan dan satu unit y di atas titik asal (0, 0). Titik (-1, -1) terletak satu unit x ke kiri dan satu unit y di bawah titik asal.
Nilai data biasanya bukan hanya angka. Mereka datang dengan unit. Misalnya, jika kita mengukur suhu, nilainya dapat diukur dalam derajat Celcius atau Fahrenheit. Demikian pula, jika kita mengukur jarak, nilainya dapat diukur dalam kilometer atau mil, dan jika kita mengukur durasi, nilainya dapat diukur dalam menit, jam, atau hari. Dalam sistem koordinat Cartesius, jarak antara garis-garis grid di sepanjang sumbu sesuai dengan langkah-langkah terpisah dalam unit data ini. Dalam skala suhu, misalnya, kita mungkin memiliki garis grid setiap 10 derajat Fahrenheit, dan dalam skala jarak, kita mungkin memiliki garis grid setiap 5 kilometer.
Sistem koordinat Kartesius dapat memiliki dua sumbu yang mewakili dua unit yang berbeda. Situasi ini muncul cukup umum setiap kali kita memetakan dua jenis variabel ke x dan y . Sebagai contoh, pada Gambar 2.3 , kami merencanakan suhu vs hari dalam setahun. Sumbu y pada Gambar 2.3diukur dalam derajat Fahrenheit, dengan garis kisi setiap 20 derajat, dan sumbu x diukur dalam bulan, dengan garis kisi pada awal setiap bulan ketiga. Setiap kali kedua sumbu diukur dalam unit yang berbeda, kita dapat meregangkan atau mengompres satu relatif ke yang lain dan mempertahankan visualisasi data yang valid (Gambar 3.2 ).Versi mana yang lebih disukai tergantung pada cerita yang ingin kami sampaikan. Sosok tinggi dan sempit menekankan perubahan di sepanjang sumbu y dan sosok pendek dan lebar melakukan sebaliknya. Idealnya, kami ingin memilih rasio aspek yang memastikan bahwa perbedaan penting dalam posisi dapat terlihat.

Gambar 3.2: Suhu normal harian untuk Houston, TX. Temperatur dipetakan ke sumbu y dan hari dalam setahun ke sumbu x . Bagian (a), (b), dan (c) menunjukkan angka yang sama dalam rasio aspek yang berbeda. Ketiga bagian adalah visualisasi yang valid dari data suhu. Sumber data: NOAA.
Di sisi lain, jika sumbu x dan y diukur dalam unit yang sama, maka jarak grid untuk kedua sumbu harus sama, sehingga jarak yang sama di sepanjang sumbu x atau y sesuai dengan jumlah unit data yang sama . Sebagai contoh, kita dapat merencanakan suhu di Houston, TX terhadap suhu di San Diego, CA, untuk setiap hari dalam setahun (Gambar 3.3 a).Karena kuantitas yang sama diplot sepanjang kedua sumbu, kita perlu memastikan bahwa garis-garis kisi-kisi membentuk kuadrat sempurna, seperti halnya pada Gambar 3.3 .

Gambar 3.3: Suhu normal harian untuk Houston, TX, diplot versus suhu normal masing-masing San Diego, CA. Hari-hari pertama bulan Januari, April, Juli, dan Oktober disorot untuk memberikan referensi temporal. (a) Suhu ditunjukkan dalam derajat Fahrenheit. (B) Suhu ditampilkan dalam derajat Celcius. Sumber data: NOAA.
Anda mungkin bertanya-tanya apa yang terjadi jika Anda mengubah unit data Anda. Lagipula, unit adalah arbitrer, dan preferensi Anda mungkin berbeda dari yang lain. Perubahan dalam unit adalah transformasi linier, di mana kami menambah atau mengurangi angka ke atau dari semua nilai data dan / atau mengalikan semua nilai data dengan angka lain. Untungnya, sistem koordinat Cartesian tidak berubah dalam transformasi linear semacam itu. Oleh karena itu, Anda dapat mengubah unit data Anda dan gambar yang dihasilkan tidak akan berubah selama Anda mengubah sumbu yang sesuai. Sebagai contoh, bandingkan Gambar 3.3 a dan 3.3 b.Keduanya menunjukkan data yang sama, tetapi sebagian (a) unit suhu derajat Fahrenheit dan sebagian (b) mereka derajat Celcius. Meskipun garis kisi-kisi berada di lokasi yang berbeda dan angka di sepanjang sumbu berbeda, kedua visualisasi data terlihat persis sama.
3.2 sumbu nonlinier
Dalam sistem koordinat Cartesius, garis-garis grid sepanjang sumbu ditempatkan secara merata baik dalam unit data maupun dalam visualisasi yang dihasilkan. Kami menyebut skala posisi dalam sistem koordinat ini sebagai linear .Sementara skala linear umumnya memberikan representasi data yang akurat, ada skenario di mana skala nonlinear lebih disukai. Dalam skala nonlinear, bahkan spasi dalam unit data sesuai dengan spasi yang tidak rata dalam visualisasi, atau sebaliknya, bahkan spasi dalam visualisasi sesuai dengan spasi yang tidak rata dalam unit data.
Skala nonlinear yang paling umum digunakan adalah skala logaritmik atau skala log . Timbangan log bersifat linier dalam multiplikasi, sehingga unit step pada skala berhubungan dengan multiplikasi dengan nilai tetap. Untuk membuat skala log, kita perlu mentrans-log-nilai data sambil mengeksponasikan angka-angka yang diperlihatkan di sepanjang garis grid sumbu. Proses ini ditunjukkan pada Gambar 3.4 , yang menunjukkan angka 1, 3.16, 10, 31.6, dan 100 ditempatkan pada skala linier dan log. Angka-angka 3.16 dan 31.6 mungkin tampak pilihan yang aneh, tetapi mereka dipilih karena mereka benar-benar setengah jalan antara 1 dan 10 dan antara 10 dan 100 pada skala log. Kita dapat melihat ini dengan mengamati bahwa \ (10 ^ {0,5} = \ sqrt {10} \ kira-kira 3,16 \) dan ekuivalen \ (3,16 \ kali 3,16 \ kira-kira 10 \) . Demikian pula, \ (10 ^ {1,5} = 10 \ times10 ^ {0,5} \ approx 31,6 \) .

Gambar 3.4: Hubungan antara skala linear dan logaritmik. Titik-titik sesuai dengan nilai data 1, 3.16, 10, 31.6, 100, yang merupakan angka-angka yang diberi spasi secara merata pada skala logaritmik. Kita dapat menampilkan titik-titik data ini dalam skala linier, kita bisa mencatatnya dan kemudian menunjukkannya dalam skala linier, atau kita bisa menunjukkannya pada skala logaritmik. Yang penting, judul sumbu yang benar untuk skala logaritma adalah nama dari variabel yang ditampilkan, bukan logaritma dari variabel itu.
Secara matematis, tidak ada perbedaan antara memplot data log-transformed pada skala linier atau memplot data asli pada skala logaritmik (Gambar 3.4 ). Satu-satunya perbedaan terletak pada pelabelan untuk kutu sumbu individu dan untuk sumbu secara keseluruhan. Dalam kebanyakan kasus, pelabelan untuk skala logaritmik lebih disukai, karena peletakan lebih sedikit beban mental pada pembaca untuk menafsirkan angka-angka yang ditunjukkan sebagai label centang sumbu. Ada juga sedikit risiko kebingungan tentang dasar logaritma. Ketika bekerja dengan data yang ditransformasi log, kita dapat menjadi bingung tentang apakah data ditransformasikan menggunakan logaritma natural atau logaritma ke basis 10. Dan itu tidak biasa untuk pelabelan menjadi ambigu, misalnya "log (x)", yang tidak t tentukan basis sama sekali. Saya sarankan Anda selalu memverifikasi basis ketika bekerja dengan data yang diubah log. Saat merencanakan data yang diubah log, selalu tentukan basis dalam pelabelan sumbu.
Karena perkalian pada skala log terlihat seperti penambahan pada skala linier, skala log adalah pilihan alami untuk setiap data yang telah diperoleh dengan perkalian atau pembagian.Secara khusus, rasio umumnya harus ditampilkan pada skala log. Sebagai contoh, saya telah mengambil jumlah penduduk di setiap daerah di Texas dan telah membaginya dengan jumlah rata-rata penduduk di seluruh wilayah Texas. Rasio yang dihasilkan adalah angka yang bisa lebih besar atau lebih kecil dari 1. Rasio tepat 1 menyiratkan bahwa daerah yang sesuai memiliki jumlah rata-rata penduduk. Ketika memvisualisasikan rasio-rasio ini pada skala log, kita dapat melihat dengan jelas bahwa jumlah populasi di negara bagian Texas terdistribusi secara simetris di sekitar median, dan bahwa county yang paling padat memiliki lebih dari 100 kali lebih banyak penduduk daripada median, sementara negara yang paling sedikit populasinya memiliki lebih dari 100 kali lebih sedikit penghuninya (Gambar 3.5 ). Sebaliknya, untuk data yang sama, skala linier mengaburkan perbedaan antara county dengan jumlah populasi median dan county dengan jumlah populasi yang jauh lebih kecil daripada median (Gambar 3.6 ).

Gambar 3.5: Jumlah populasi negara bagian Texas relatif terhadap nilai mediannya. Negara terpilih disorot oleh nama. Garis putus-putus menunjukkan rasio 1, sesuai dengan daerah dengan jumlah populasi rata-rata. County yang paling padat penduduknya memiliki sekitar 100 kali lebih banyak penduduk daripada median county, dan county yang paling padat penduduknya memiliki sekitar 100 kali lebih sedikit penduduk daripada median county. Sumber data: Sensus AS Decennial 2010.

Gambar 3.6: Ukuran populasi negara bagian Texas relatif terhadap nilai mediannya. Dengan menampilkan rasio pada skala linier, kami memiliki rasio yang terlalu ditekankan> 1 dan telah mengaburkan rasio <1. Sebagai aturan umum, rasio tidak boleh ditampilkan pada skala linier. Sumber data: Sensus AS Decennial 2010.
Pada skala log, nilai 1 adalah titik tengah alami, mirip dengan nilai 0 pada skala linier. Kita dapat menganggap nilai lebih dari 1 sebagai mewakili perkalian dan nilai kurang dari 1 divisi. Sebagai contoh, kita dapat menulis \ (10 = 1 \ kali 10 \)dan \ (0,1 = 1/10 \) . Nilai 0, di sisi lain, tidak pernah bisa muncul pada skala log. Itu terletak jauh dari 1. Salah satu cara untuk melihat ini adalah dengan mempertimbangkan \ (\ log (0) = - \ infty \) . Atau, sebagai alternatif, pertimbangkan untuk beralih dari 1 ke 0, dibutuhkan divisi dengan jumlah tak terbatas dengan nilai yang terbatas (misalnya, \ (1/10/10/10/10/10/10/10 \ dots = 0 \) ) atau sebagai alternatif satu pembagian dengan tak terhingga (yaitu, \ (1 / \ infty = 0 \) ).
Timbangan log sering digunakan ketika kumpulan data berisi angka dengan besaran yang sangat berbeda. Untuk negara bagian Texas yang ditunjukkan pada Gambar 3.5 dan 3.6 , yang paling padat penduduk (Harris) memiliki 4.092.459 penduduk dalam Sensus AS 2010 sementara yang paling sedikit penduduknya (Mencintai) memiliki 82. Jadi skala log akan sesuai bahkan jika kita tidak membagi jumlah populasi dengan median mereka untuk mengubahnya menjadi rasio.Tapi apa yang akan kita lakukan jika ada daerah dengan 0 penduduk? Wilayah ini tidak dapat ditampilkan pada skala logaritmik, karena ia akan berada pada minus tak terhingga.Dalam situasi ini, rekomendasi terkadang menggunakan skala akar-persegi, yang menggunakan transformasi akar kuadrat alih-alih transformasi log (Gambar 3.7 ). Sama seperti skala log, skala akar-persegi memadatkan angka yang lebih besar ke rentang yang lebih kecil, tetapi tidak seperti skala log, skala log memungkinkan untuk keberadaan 0.

Gambar 3.7: Hubungan antara skala linear dan akar-persegi. Titik-titik sesuai dengan nilai data 0, 1, 4, 9, 16, 25, 36, 49, yang merupakan bilangan spasi merata pada skala akar-persegi, karena merupakan kuadrat bilangan bulat dari 0 hingga 7. Kita dapat menampilkan titik-titik data ini pada skala linier, kita dapat mentransformasi akar kuadratnya dan kemudian menunjukkannya pada skala linier, atau kita dapat menunjukkannya pada skala akar kuadrat.
Saya melihat dua masalah dengan skala akar. Pertama, sementara pada skala linier satu unit langkah berhubungan dengan penambahan atau pengurangan nilai konstan dan pada skala log berhubungan dengan perkalian dengan atau pembagian dengan nilai konstan, tidak ada aturan seperti itu untuk skala akar-persegi. Arti langkah unit pada skala akar-persegi tergantung pada nilai skala di mana kita mulai.Kedua, tidak jelas bagaimana cara terbaik menempatkan kutu sumbu pada skala akar-persegi. Untuk mendapatkan kutu spasi secara merata, kita harus menempatkannya di kotak, tetapi kutu sumbu di, misalnya, posisi 0, 4, 25, 49, 81 (setiap kuadrat kedua) akan sangat tidak intuitif. Sebagai alternatif, kita dapat menempatkannya pada interval linear (10, 20, 30, dll), tetapi ini akan menghasilkan terlalu sedikit kutu sumbu di dekat ujung bawah skala atau terlalu banyak di dekat ujung tinggi. Pada Gambar 3.7 , saya telah menempatkan kutu sumbu pada posisi 0, 1, 5, 10, 20, 30, 40, dan 50 pada skala akar kuadrat. Nilai-nilai ini sewenang-wenang tetapi memberikan jangkauan data yang wajar.
Meskipun masalah ini dengan skala akar-persegi, mereka adalah skala posisi yang valid dan saya tidak mengabaikan kemungkinan bahwa mereka memiliki aplikasi yang sesuai.Misalnya, sama seperti skala log adalah skala alami untuk rasio, orang dapat berargumen bahwa skala akar kuadrat adalah skala alami untuk data yang datang dalam kotak. Satu skenario di mana data secara alami kotak berada dalam konteks wilayah geografis. Jika kami menunjukkan area wilayah geografis pada skala akar kuadrat, kami menyoroti luas linier wilayah dari Timur ke Barat atau Utara ke Selatan.Luas ini bisa relevan, misalnya, jika kita bertanya-tanya berapa lama untuk berkendara melintasi suatu wilayah.Gambar 3.8 menunjukkan area negara bagian di Timur Laut AS pada skala linear dan root-square. Meskipun wilayah negara-negara ini sangat berbeda (Gambar 3.8 a), waktu yang diperlukan untuk berkendara di setiap negara bagian akan lebih mirip dengan gambar pada skala akar kuadrat (Gambar 3.8b ) daripada gambar pada skala linear. (Gambar 3.8 a).

Gambar 3.8: Wilayah negara bagian AS Timur Laut. (a) Area yang ditunjukkan pada skala linier. (B) Area ditampilkan pada skala akar-persegi.Sumber data: Google.
3.3 Sistem koordinat dengan sumbu melengkung
Semua sistem koordinat yang kami temui sejauh ini menggunakan dua sumbu lurus yang diposisikan pada sudut yang tepat satu sama lain, bahkan jika sumbu itu sendiri membentuk pemetaan non-linear dari nilai data ke posisi.Namun ada sistem koordinat lain, di mana sumbu itu sendiri melengkung. Secara khusus, dalam sistem koordinat kutub , kami menentukan posisi melalui sudut dan jarak radial dari titik asal, dan oleh karena itu sumbu sudutnya melingkar (Gambar 3.9 ).

Gambar 3.9: Hubungan antara koordinat Kartesius dan kutub. (a) Tiga titik data ditunjukkan dalam sistem koordinat Cartesius. (B) Tiga titik data yang sama ditunjukkan dalam sistem koordinat kutub. Kami telah mengambil koordinat x dari bagian (a) dan menggunakannya sebagai koordinat sudut dan koordinat y dari bagian (a) dan menggunakannya sebagai koordinat radial. Sumbu lingkaran berjalan dari 0 hingga 4 dalam contoh ini, dan oleh karena itu x = 0 dan x = 4 adalah lokasi yang sama dalam sistem koordinat ini.
Koordinat kutub dapat berguna untuk data yang bersifat periodik, sehingga nilai data di satu ujung skala dapat secara logis bergabung dengan nilai data di ujung lainnya. Misalnya, perhatikan hari dalam setahun. 31 Desember adalah hari terakhir tahun ini, tetapi juga satu hari sebelum hari pertama tahun itu. Jika kami ingin menunjukkan bagaimana beberapa kuantitas bervariasi sepanjang tahun, mungkin tepat untuk menggunakan koordinat polar dengan koordinat sudut yang ditentukan setiap hari. Mari kita terapkan konsep ini pada suhu normal pada Gambar 2.3 . Karena suhu normal adalah suhu rata-rata yang tidak terikat pada tahun tertentu, 31 Desember dapat dianggap sebagai 366 hari lebih lambat dari 1 Januari (suhu normal termasuk 29 Februari) dan juga satu hari sebelumnya. Dengan memplot suhu normal dalam sistem koordinat polar, kami menekankan sifat siklikal yang mereka miliki (Gambar 3.10 ). Dibandingkan dengan Gambar 2.3 , versi kutub menyoroti seberapa mirip suhu di Death Valley, Houston, dan San Diego dari akhir musim gugur ke awal musim semi. Dalam sistem koordinat Cartesian, fakta ini dikaburkan karena nilai suhu pada akhir Desember dan awal Januari diperlihatkan di bagian yang berlawanan dari gambar dan karenanya tidak membentuk satu unit visual tunggal.

Gambar 3.10: Suhu normal harian untuk empat lokasi terpilih di AS, ditunjukkan dalam koordinat kutub. Jarak radial dari titik pusat menunjukkan suhu harian di Fahrenheit, dan hari-hari dalam setahun diatur berlawanan arah jarum jam dimulai dengan 1 Januari pada posisi 6:00.
Pengaturan kedua di mana kami menemukan sumbu melengkung adalah dalam konteks data geospasial, yaitu peta. Lokasi di dunia ditentukan oleh bujur dan lintangnya.Tetapi karena bumi adalah bola, menggambar garis lintang dan garis bujur karena sumbu Cartesian menyesatkan dan tidak direkomendasikan (Gambar 3.11 ). Sebagai gantinya, kami menggunakan berbagai jenis proyeksi non-linier yang berupaya meminimalkan artefak dan yang menyerang keseimbangan yang berbeda antara area konservasi atau sudut relatif terhadap garis bentuk sebenarnya di dunia (Gambar 3.11 ).

Gambar 3.11: Peta dunia, ditunjukkan dalam empat proyeksi berbeda.Sistem garis bujur dan lintang Cartesian memetakan garis bujur dan garis lintang dari masing-masing lokasi ke sistem koordinat Cartesian biasa.Pemetaan ini menyebabkan distorsi substansial di kedua area dan sudut relatif terhadap nilai sebenarnya di globe 3D. Proyeksi homolosine Goode yang terputus dengan sempurna mewakili area permukaan yang sebenarnya, dengan biaya membagi beberapa massa tanah menjadi bagian-bagian yang terpisah, terutama Greenland dan Antartika. Proyeksi Robinson dan proyeksi tripel Winkel keduanya menyeimbangkan antara distorsi sudut dan area, dan mereka biasanya digunakan untuk peta seluruh dunia.
