Memilih perangkat lunak visualisasi yang tepat

28 Memilih perangkat lunak visualisasi yang tepat

Di sepanjang buku ini, saya sengaja menghindari satu pertanyaan kritis tentang visualisasi data: Bagaimana kita benar-benar menghasilkan angka-angka kita? Alat apa yang harus kita gunakan? Pertanyaan ini dapat menghasilkan diskusi panas, karena banyak orang memiliki ikatan emosional yang kuat dengan alat khusus yang mereka kenal.Saya sering melihat orang-orang dengan giat membela alat pilihan mereka sendiri alih-alih menginvestasikan waktu untuk mempelajari pendekatan baru, bahkan jika pendekatan baru memiliki manfaat obyektif. Dan saya akan mengatakan bahwa bertahan dengan alat yang Anda tahu tidak sepenuhnya tidak masuk akal. Mempelajari alat baru mana pun akan membutuhkan waktu dan usaha, dan Anda harus melewati masa transisi yang menyakitkan di mana menyelesaikan sesuatu dengan alat baru jauh lebih sulit daripada menggunakan alat lama. Apakah melalui periode ini layak usaha biasanya hanya dapat dievaluasi dalam retrospeksi, setelah seseorang melakukan investasi untuk mempelajari alat baru. Karena itu, terlepas dari pro dan kontra dari berbagai alat dan pendekatan, prinsip utama adalah Anda harus memilih alat yang cocok untuk Anda. Jika Anda dapat membuat angka yang ingin Anda buat, tanpa usaha yang berlebihan, maka itu yang terpenting.
Perangkat lunak visualisasi terbaik adalah yang memungkinkan Anda untuk membuat angka yang Anda butuhkan.
Setelah mengatakan ini, saya pikir ada prinsip-prinsip umum yang dapat kita gunakan untuk menilai manfaat relatif dari berbagai pendekatan untuk menghasilkan visualisasi. Prinsip-prinsip ini secara kasar dipecah oleh seberapa direproduksi visualisasi itu, betapa mudahnya untuk dengan cepat mengeksplorasi data, dan sejauh mana penampilan visual dari output dapat diubah.

28.1 Reproducibilitas dan pengulangan

Dalam konteks eksperimen ilmiah, kami merujuk pada karya yang dapat direproduksi jika temuan ilmiah menyeluruh dari karya tersebut akan tetap tidak berubah jika kelompok penelitian yang berbeda melakukan jenis studi yang sama.Sebagai contoh, jika satu kelompok penelitian menemukan bahwa obat nyeri baru mengurangi rasa sakit kepala yang dirasakan secara signifikan tanpa menyebabkan efek samping yang nyata dan kelompok yang berbeda kemudian mempelajari obat yang sama pada kelompok pasien yang berbeda dan memiliki temuan yang sama, maka pekerjaan tersebut dapat direproduksi. Sebaliknya, pekerjaan dapat diulang jika pengukuran yang sangat mirip atau identik dapat dilakukan oleh orang yang sama mengulangi prosedur pengukuran yang sama persis pada peralatan yang sama.Sebagai contoh, jika saya menimbang anjing saya dan menemukan beratnya 41 kg, kemudian saya menimbangnya lagi pada skala yang sama dan menemukan lagi bahwa ia memiliki berat 41 kg, maka pengukuran ini dapat diulang.
Dengan modifikasi kecil, kita dapat menerapkan konsep-konsep ini ke visualisasi data. Visualisasi dapat direproduksi jika data yang diplot tersedia dan transformasi data apa pun yang mungkin telah diterapkan ditentukan secara spesifik.Misalnya, jika Anda membuat angka dan kemudian mengirim saya data persis yang Anda rencanakan, maka saya dapat menyiapkan angka yang terlihat sangat mirip. Kami mungkin menggunakan font atau warna yang sedikit berbeda atau ukuran titik untuk menampilkan data yang sama, sehingga kedua angka tersebut mungkin tidak persis sama, tetapi gambar dan tambang Anda menyampaikan pesan yang sama dan karenanya merupakan reproduksi satu sama lain.Visualisasi dapat diulangi, di sisi lain, jika memungkinkan untuk menciptakan kembali tampilan visual yang sama persis, hingga ke piksel terakhir, dari data mentah. Sebenarnya, pengulangan mengharuskan bahwa bahkan jika ada elemen acak dalam gambar, seperti jitter (Bab 18 ), elemen-elemen itu ditentukan dengan cara yang dapat diulang dan dapat dibuat ulang di masa mendatang. Untuk data acak, pengulangan biasanya mengharuskan kami menentukan generator nomor acak tertentu yang kami atur dan rekam seed.
Sepanjang buku ini, kita telah melihat banyak contoh tokoh yang mereproduksi tetapi tidak mengulangi tokoh lainnya.Sebagai contoh, Bab 25 menunjukkan beberapa set angka di mana semua gambar di setiap set menunjukkan data yang sama tetapi setiap gambar di setiap set terlihat agak berbeda.Demikian pula, Gambar 28.1 a adalah pengulangan dari Gambar 9.7 , turun ke jitter acak yang diterapkan untuk setiap titik data, sedangkan Gambar 28.1 b hanya merupakan reproduksi dari gambar itu. Gambar 28.1 b memiliki jitter yang berbeda dari Gambar 9.7 , dan juga menggunakan desain visual yang cukup berbeda sehingga kedua gambar terlihat sangat berbeda, bahkan jika mereka dengan jelas menyampaikan informasi yang sama tentang data.
Ulangi dan reproduksi gambar. Bagian (a) adalah pengulangan dari Gambar 9.7. Kedua angka identik ke jitter acak yang diterapkan pada setiap titik. Sebaliknya, bagian (b) adalah reproduksi tetapi bukan pengulangan. Secara khusus, jitter pada bagian (b) berbeda dari jitter pada bagian (a) atau pada Gambar 9.7.
Gambar 28.1: Ulangi dan reproduksi gambar. Bagian (a) adalah pengulangan dari Gambar 9.7 . Kedua angka identik ke jitter acak yang diterapkan pada setiap titik. Sebaliknya, bagian (b) adalah reproduksi tetapi bukan pengulangan. Secara khusus, jitter pada bagian (b) berbeda dari jitter pada bagian (a) atau pada Gambar 9.7 .
Baik reproduktifitas dan pengulangan bisa sulit dicapai ketika kita sedang bekerja dengan perangkat lunak plot interaktif.Banyak program interaktif memungkinkan Anda mengubah atau memanipulasi data tetapi tidak melacak setiap transformasi data yang Anda lakukan, hanya produk akhir.Jika Anda membuat angka menggunakan program semacam ini, dan kemudian seseorang meminta Anda untuk mereproduksi gambar atau membuat yang serupa dengan kumpulan data yang berbeda, Anda mungkin mengalami kesulitan untuk melakukannya. Selama tahun-tahun saya sebagai postdoc dan asisten profesor muda, saya menggunakan program interaktif untuk semua visualisasi ilmiah saya, dan masalah persis ini terjadi pada saya beberapa kali. Sebagai contoh, saya telah membuat beberapa angka untuk naskah ilmiah. Ketika saya ingin merevisi naskah beberapa bulan kemudian dan perlu mereproduksi versi yang sedikit diubah dari salah satu tokoh, saya menyadari bahwa saya tidak begitu yakin lagi bagaimana saya telah membuat sosok asli di tempat pertama.Pengalaman ini telah mengajarkan saya untuk menjauh dari program interaktif sebanyak mungkin. Saya sekarang membuat angka secara terprogram, dengan menulis kode (skrip) yang menghasilkan angka dari data mentah. Angka-angka yang dihasilkan secara program umumnya akan dapat diulangi oleh siapa saja yang memiliki akses ke skrip penghasil dan bahasa pemrograman serta pustaka tertentu yang digunakan.

28.2 Eksplorasi data versus penyajian data

Ada dua fase visualisasi data yang berbeda, dan mereka memiliki persyaratan yang sangat berbeda. Yang pertama adalah eksplorasi data. Setiap kali Anda mulai bekerja dengan dataset baru, Anda perlu melihatnya dari sudut yang berbeda dan mencoba berbagai cara memvisualisasikannya, hanya untuk mengembangkan pemahaman tentang fitur utama dataset. Dalam fase ini, kecepatan dan efisiensi adalah esensi. Anda perlu mencoba berbagai jenis visualisasi, transformasi data yang berbeda, dan subset data yang berbeda. Semakin cepat Anda dapat mengulangi melalui berbagai cara dalam melihat data, semakin banyak Anda akan menjelajah, dan semakin tinggi kemungkinan Anda akan melihat fitur penting dalam data yang mungkin Anda abaikan. Fase kedua adalah presentasi data. Anda memasukkannya setelah Anda memahami dataset Anda dan tahu aspek apa yang ingin Anda perlihatkan kepada audiens Anda. Tujuan utama dalam fase ini adalah untuk mempersiapkan sosok siap publikasi berkualitas tinggi yang dapat dicetak dalam artikel atau buku, termasuk dalam presentasi, atau diposting di internet.
Pada tahap eksplorasi, apakah angka yang Anda buat terlihat menarik adalah nomor dua. Tidak apa-apa jika label sumbu tidak ada, legenda berantakan, atau simbol terlalu kecil, selama Anda dapat mengevaluasi berbagai pola dalam data.Yang penting, bagaimanapun, adalah betapa mudahnya bagi Anda untuk mengubah cara data ditampilkan. Untuk benar-benar menjelajahi data, Anda harus dapat dengan cepat berpindah dari sebaran sebaran ke plot distribusi kepadatan yang tumpang tindih ke plot box ke peta panas. Dalam Bab 2, kita telah membahas bagaimana semua visualisasi terdiri dari pemetaan dari data ke estetika. Alat eksplorasi data yang dirancang dengan baik akan memungkinkan Anda untuk dengan mudah mengubah variabel mana yang dipetakan ke mana estetika, dan itu akan memberikan berbagai pilihan visualisasi yang berbeda dalam satu kerangka kerja yang koheren. Namun, dalam pengalaman saya, banyak alat visualisasi (dan khususnya perpustakaan untuk generasi figur terprogram) tidak diatur dengan cara ini. Sebagai gantinya, mereka disusun berdasarkan tipe plot, di mana setiap tipe plot yang berbeda memerlukan data input yang agak berbeda dan memiliki antarmuka idiosinkratik sendiri. Alat-alat seperti itu dapat menghalangi eksplorasi data yang efisien, karena sulit untuk mengingat bagaimana semua tipe plot yang berbeda bekerja. Saya mendorong Anda untuk hati-hati mengevaluasi apakah perangkat lunak visualisasi Anda memungkinkan untuk eksplorasi data yang cepat atau apakah itu cenderung menghalangi. Jika lebih sering menghalangi, Anda dapat mengambil manfaat dari mengeksplorasi opsi visualisasi alternatif.
Setelah kami menentukan bagaimana tepatnya kami ingin memvisualisasikan data kami, transformasi data apa yang ingin kami buat, dan jenis plot apa yang akan digunakan, kami biasanya ingin menyiapkan figur berkualitas tinggi untuk dipublikasikan. Pada titik ini, kami memiliki beberapa jalan berbeda yang bisa kami tempuh. Pertama, kita dapat menyelesaikan gambar menggunakan platform perangkat lunak yang sama yang kita gunakan untuk eksplorasi awal.Kedua, kita dapat mengalihkan platform ke platform yang memberi kita kontrol lebih baik atas produk akhir, bahkan jika platform tersebut membuat lebih sulit untuk dijelajahi. Ketiga, kita dapat menghasilkan gambar konsep dengan perangkat lunak visualisasi dan kemudian secara manual pasca-proses dengan manipulasi gambar atau program ilustrasi seperti Photoshop atau Illustrator. Keempat, kita dapat secara manual menggambar ulang seluruh gambar dari awal, baik dengan pena dan kertas atau menggunakan program ilustrasi.
Semua jalan ini masuk akal. Namun, saya ingin mengingatkan agar angka-angka sprucing secara manual dalam pipa analisis data rutin atau untuk publikasi ilmiah.Langkah-langkah manual dalam pipa persiapan angka membuat pengulangan atau mereproduksi gambar secara inheren sulit dan memakan waktu. Dan dalam pengalaman saya bekerja di ilmu alam, kami jarang membuat angka sekali saja. Selama penelitian, kami dapat mengulang percobaan, memperluas dataset asli, atau mengulangi percobaan beberapa kali dengan kondisi yang sedikit berubah. Saya sudah melihatnya berkali-kali di akhir proses publikasi, ketika kami pikir semuanya dilakukan dan diselesaikan, kami akhirnya memperkenalkan sedikit modifikasi pada bagaimana kami menganalisis data kami, dan akibatnya semua angka harus digambar ulang. Dan saya juga telah melihat, dalam situasi yang sama, bahwa keputusan dibuat untuk tidak mengulang analisis atau tidak menggambar ulang angka-angka, baik karena upaya yang terlibat atau karena orang-orang yang telah membuat sosok asli telah pindah dan tidak t tersedia lagi. Dalam semua skenario ini, pipa visualisasi data yang rumit dan tidak dapat direproduksi mengganggu produksi sains terbaik.
Karena itu, saya tidak memiliki kepedulian prinsipal tentang gambar yang digambar tangan atau gambar yang telah diproses secara manual, misalnya untuk mengubah label sumbu, menambahkan anotasi, atau memodifikasi warna.Pendekatan-pendekatan ini dapat menghasilkan tokoh-tokoh cantik dan unik yang tidak dapat dengan mudah dibuat dengan cara lain. Faktanya, ketika visualisasi yang dihasilkan komputer yang canggih dan dipoles menjadi semakin lumrah, saya mengamati bahwa gambar yang digambar secara manual membuat kebangkitan kembali (lihat Gambar 28.2sebagai contoh). Saya pikir inilah masalahnya karena angka-angka tersebut mewakili pandangan yang unik dan dipersonalisasi untuk apa yang mungkin menjadi presentasi data yang agak steril dan rutin.
Setelah pengenalan metode sekuensing gen berikutnya, biaya sekuensing per genom telah menurun jauh lebih cepat dari yang diperkirakan oleh hukum Moore. Gambar yang digambar tangan ini mereproduksi visualisasi yang dipublikasikan secara luas yang disiapkan oleh National Institutes of Health. Sumber data: National Human Genome Research Institute
Gambar 28.2: Setelah pengenalan metode sekuensing gen berikutnya, biaya sekuensing per genom telah menurun jauh lebih cepat daripada yang diperkirakan oleh hukum Moore. Gambar yang digambar tangan ini mereproduksi visualisasi yang dipublikasikan secara luas yang disiapkan oleh National Institutes of Health. Sumber data: National Human Genome Research Institute

28.3 Pemisahan konten dan desain

Perangkat lunak visualisasi yang baik harus memungkinkan Anda untuk berpikir secara terpisah tentang konten dan desain gambar Anda. Berdasarkan konten, saya merujuk pada kumpulan data spesifik yang ditunjukkan, transformasi data yang diterapkan (jika ada), pemetaan spesifik dari data ke estetika, skala, kisaran sumbu, dan jenis plot (sebar plot, plot garis, plot bar , boxplot, dll.). Desain, di sisi lain, menggambarkan fitur seperti warna latar depan dan latar belakang, spesifikasi font (misalnya ukuran font, wajah, dan keluarga), bentuk dan ukuran simbol, penempatan legenda, kutu sumbu, judul sumbu, dan judul plot, dan apakah angka tersebut memiliki grid latar belakang atau tidak. Ketika saya mengerjakan visualisasi baru, saya biasanya menentukan dulu apa isinya, menggunakan jenis eksplorasi cepat yang dijelaskan dalam subbab sebelumnya. Setelah konten diatur, saya dapat mengubah desain, atau lebih mungkin saya akan menerapkan desain yang sudah saya tentukan sebelumnya dan / atau yang memberikan tampilan yang konsisten pada konteks tubuh yang lebih besar.
Dalam perangkat lunak yang saya gunakan untuk buku ini, ggplot2, pemisahan konten dan desain dicapai melalui tema.Tema menentukan tampilan visual suatu gambar, dan mudah untuk mengambil gambar yang sudah ada dan menerapkan tema yang berbeda untuknya (Gambar 28.3 ). Tema dapat ditulis oleh pihak ketiga dan didistribusikan sebagai paket R.Melalui mekanisme ini, ekosistem yang berkembang dari tema tambahan telah berkembang di sekitar ggplot2, dan mencakup beragam gaya dan skenario aplikasi yang berbeda. Jika Anda membuat angka dengan ggplot2, Anda hampir pasti dapat menemukan tema yang ada yang memenuhi kebutuhan desain Anda.
Jumlah penganggur di AS dari tahun 1970 hingga 2015. Angka yang sama ditampilkan menggunakan empat tema ggplot2 yang berbeda: (a) tema default untuk buku ini; (B) tema default ggplot2, perangkat lunak merencanakan saya telah digunakan untuk membuat semua angka dalam buku ini; (c) tema yang meniru visualisasi yang diperlihatkan dalam Economist; (d) tema yang meniru visualisasi yang diperlihatkan oleh FiveThirtyEight. FiveThirtyEight sering menghilangkan label sumbu yang mendukung judul plot dan subtitle, dan oleh karena itu saya telah menyesuaikan gambarnya. Sumber data: Biro Statistik Tenaga Kerja A.S.
Gambar 28.3: Jumlah orang yang menganggur di AS dari tahun 1970 hingga 2015. Gambar yang sama ditampilkan menggunakan empat tema ggplot2 berbeda: (a) tema default untuk buku ini; (B) tema default ggplot2, perangkat lunak merencanakan saya telah digunakan untuk membuat semua angka dalam buku ini; (c) tema yang meniru visualisasi yang diperlihatkan dalam Economist; (d) tema yang meniru visualisasi yang diperlihatkan oleh FiveThirtyEight. FiveThirtyEight sering menghilangkan label sumbu yang mendukung judul plot dan subtitle, dan oleh karena itu saya telah menyesuaikan gambarnya. Sumber data: Biro Statistik Tenaga Kerja AS
Pemisahan konten dan desain memungkinkan ilmuwan dan perancang data untuk masing-masing fokus pada apa yang mereka lakukan terbaik. Sebagian besar ilmuwan data bukan desainer, dan oleh karena itu perhatian utama mereka haruslah data, bukan desain visualisasi. Demikian juga, sebagian besar desainer bukan ilmuwan data, dan mereka harus dapat memberikan bahasa visual yang unik dan menarik untuk angka-angka tanpa harus khawatir tentang data tertentu, transformasi yang tepat, dan sebagainya.Prinsip yang sama untuk memisahkan konten dan desain telah lama diikuti dalam dunia penerbitan buku, majalah, surat kabar, dan situs web, di mana penulis menyediakan konten tetapi bukan tata letak atau desain. Tata letak dan desain dibuat oleh sekelompok orang terpisah yang berspesialisasi dalam bidang ini dan yang memastikan bahwa publikasi muncul dalam gaya yang konsisten dan menarik secara visual. Prinsip ini logis dan bermanfaat, tetapi belum tersebar luas di dunia visualisasi data.
Singkatnya, ketika memilih perangkat lunak visualisasi Anda, pikirkan betapa mudahnya Anda dapat mereproduksi angka dan mengulanginya dengan set data yang diperbarui atau diubah, apakah Anda dapat dengan cepat mengeksplorasi visualisasi berbeda dari data yang sama, dan sejauh mana Anda dapat mengubah desain visual secara terpisah dari menghasilkan konten gambar. Tergantung pada tingkat keahlian Anda dan kenyamanan dengan pemrograman, mungkin bermanfaat untuk menggunakan alat visualisasi yang berbeda pada tahap eksplorasi data dan presentasi data, dan Anda mungkin lebih suka melakukan tweaking visual akhir secara interaktif atau dengan tangan. Jika Anda harus membuat angka secara interaktif, khususnya dengan perangkat lunak yang tidak melacak semua transformasi data dan tweak visual yang telah Anda terapkan, pertimbangkan untuk mencatat dengan cermat bagaimana Anda membuat setiap gambar, sehingga semua pekerjaan Anda tetap dapat diproduksi ulang.