Kata pengantar

Kata pengantar

Jika Anda seorang ilmuwan, analis, konsultan, atau siapa pun yang harus menyiapkan dokumen atau laporan teknis, salah satu keterampilan paling penting yang perlu Anda miliki adalah kemampuan untuk membuat visualisasi data yang menarik, umumnya dalam bentuk angka. Angka biasanya akan memikul bobot argumen Anda. Mereka harus jelas, menarik, dan meyakinkan. Perbedaan antara angka baik dan buruk bisa menjadi perbedaan antara makalah yang sangat berpengaruh atau tidak jelas, hibah atau kontrak menang atau kalah, wawancara kerja berjalan baik atau buruk.Namun, ada sangat sedikit sumber daya untuk mengajarkan Anda cara membuat visualisasi data yang menarik. Beberapa perguruan tinggi menawarkan kursus tentang topik ini, dan juga tidak banyak buku tentang topik ini. (Beberapa ada, tentu saja.) Tutorial untuk merencanakan perangkat lunak biasanya berfokus pada cara mencapai efek visual tertentu daripada menjelaskan mengapa pilihan tertentu lebih disukai dan yang lainnya tidak. Dalam pekerjaan sehari-hari Anda, Anda hanya diharapkan untuk mengetahui cara membuat angka yang baik, dan jika Anda beruntung, Anda memiliki penasihat yang sabar yang mengajarkan Anda beberapa trik saat Anda sedang menulis makalah ilmiah pertama Anda.
Dalam konteks penulisan, editor berpengalaman berbicara tentang "telinga", kemampuan untuk mendengar (secara internal, ketika Anda membaca sepotong prosa) apakah tulisan itu ada gunanya. Saya berpikir bahwa dalam hal figur dan visualisasi lainnya, kita juga membutuhkan "mata", kemampuan untuk melihat sosok dan melihat apakah itu seimbang, jelas, dan menarik. Dan seperti halnya dengan menulis, kemampuan untuk melihat apakah suatu angka berfungsi atau tidak dapat dipelajari. Memiliki mata terutama berarti Anda sadar akan kumpulan besar aturan sederhana dan prinsip visualisasi yang baik, dan bahwa Anda memperhatikan detail kecil yang mungkin tidak dimiliki orang lain.
Dalam pengalaman saya, sekali lagi seperti dalam menulis, Anda tidak mengembangkan mata dengan membaca buku selama akhir pekan. Ini adalah proses seumur hidup, dan konsep yang terlalu kompleks atau terlalu halus untuk Anda hari ini mungkin lebih masuk akal lima tahun dari sekarang.Saya dapat mengatakan pada diri saya bahwa saya terus berkembang dalam pemahaman saya tentang persiapan angka. Saya secara rutin mencoba memaparkan diri saya pada pendekatan baru, dan saya memperhatikan pilihan visual dan desain yang dibuat orang lain dalam figur mereka.Saya juga terbuka untuk mengubah pikiran saya. Saya mungkin hari ini menganggap sosok tertentu hebat, tetapi bulan depan saya mungkin menemukan alasan untuk mengkritiknya. Maka dengan mengingat hal ini, tolong jangan menganggap apa pun yang saya katakan sebagai Injil.Pikirkan secara kritis tentang alasan saya untuk pilihan tertentu dan putuskan apakah Anda ingin mengadopsinya atau tidak.
Sementara bahan-bahan dalam buku ini disajikan dalam perkembangan logis, sebagian besar bab dapat berdiri sendiri, dan tidak perlu membaca sampul buku untuk menutupi. Jangan ragu untuk berkeliling, untuk memilih bagian tertentu yang Anda minati saat ini, atau bagian yang mencakup pilihan desain spesifik yang sedang Anda renungkan. Sebenarnya, saya pikir Anda akan mendapatkan hasil maksimal dari buku ini jika Anda tidak membacanya sekaligus, tetapi membacanya sedikit demi sedikit dalam jangka waktu yang lebih lama, cobalah untuk menerapkan hanya beberapa konsep dari buku dalam pembuatan gambar Anda, dan kembali untuk membaca tentang konsep lain atau membaca kembali konsep yang Anda pelajari tentang beberapa waktu yang lalu. Anda mungkin menemukan bahwa bab yang sama memberi tahu Anda hal-hal yang berbeda jika Anda membacanya kembali setelah beberapa bulan berlalu.
Meskipun hampir semua angka dalam buku ini dibuat dengan R dan ggplot2, saya tidak melihat ini sebagai buku R. Saya berbicara tentang prinsip umum persiapan angka. Perangkat lunak yang digunakan untuk membuat angka bersifat insidental. Anda dapat menggunakan perangkat lunak merencanakan apa pun yang Anda inginkan untuk menghasilkan angka-angka yang saya perlihatkan di sini.Namun, paket ggplot2 dan sejenisnya membuat banyak teknik yang saya gunakan jauh lebih sederhana daripada pustaka plot yang lain. Yang penting, karena ini bukan buku R, saya tidak membahas kode atau teknik pemrograman mana pun di buku ini. Saya ingin Anda fokus pada konsep dan angka, bukan pada kode. Jika Anda ingin tahu bagaimana angka-angka itu dibuat, Anda dapat memeriksa kode sumber buku di repositori GitHub-nya, https://github.com/clauswilke/dataviz .

Pikiran tentang perangkat lunak grafik dan pipa penyiapan gambar

Saya memiliki lebih dari dua dekade pengalaman dalam mempersiapkan angka-angka untuk publikasi ilmiah dan telah menghasilkan ribuan angka. Jika ada satu konstan selama dua dekade ini, itu adalah perubahan dalam pipa penyiapan gambar. Setiap beberapa tahun, perpustakaan plot baru dikembangkan atau paradigma baru muncul, dan kelompok besar ilmuwan beralih ke toolkit baru yang panas.Saya telah membuat angka menggunakan gnuplot, Xfig, Mathematica, Matlab, matplotlib di python, base R, ggplot2 di R, dan mungkin yang lain yang saat ini saya tidak ingat.Pendekatan pilihan saya saat ini adalah ggplot2 di R, tapi saya tidak berharap bahwa saya akan terus menggunakannya sampai saya pensiun.
Perubahan konstan dalam platform perangkat lunak ini adalah salah satu alasan utama mengapa buku ini bukan buku pemrograman dan mengapa saya meninggalkan semua contoh kode. Saya ingin buku ini bermanfaat bagi Anda terlepas dari perangkat lunak mana yang Anda gunakan, dan saya ingin buku ini tetap berharga bahkan setelah semua orang pindah dari ggplot2 dan menggunakan hal baru berikutnya. Saya menyadari bahwa pilihan ini mungkin membuat frustasi bagi beberapa pengguna ggplot2 yang ingin tahu bagaimana saya membuat angka tertentu. Kepada mereka saya katakan, baca kode sumber buku itu. Itu tersedia. Juga, di masa depan saya dapat merilis dokumen tambahan yang berfokus hanya pada kode.
Satu hal yang saya pelajari selama bertahun-tahun adalah otomatisasi adalah teman Anda. Saya pikir angka-angka harus diautogenerasi sebagai bagian dari pipa analisis data (yang juga harus otomatis), dan mereka harus keluar dari pipa siap untuk dikirim ke printer, tidak diperlukan pemrosesan pasca manual. Saya melihat banyak trainee membuat draf gambar mereka secara kasar, yang kemudian mereka impor ke Illustrator untuk dirapikan. Ada beberapa alasan mengapa ini adalah ide yang buruk. Pertama, saat Anda mengedit angka secara manual, angka akhir Anda menjadi tidak dapat diproduksi kembali. Pihak ketiga tidak dapat menghasilkan angka yang sama persis seperti yang Anda lakukan. Meskipun hal ini mungkin tidak terlalu menjadi masalah jika yang Anda lakukan hanyalah mengubah font label sumbu, garis-garisnya buram, dan mudah untuk menyeberang ke wilayah di mana hal-hal yang kurang jelas dipotong. Sebagai contoh, katakanlah Anda ingin secara manual mengganti label samar dengan yang lebih mudah dibaca. Pihak ketiga mungkin tidak dapat memverifikasi bahwa penggantian label sudah sesuai. Kedua, jika Anda menambahkan banyak post-processing manual ke pipeline persiapan angka Anda maka Anda akan lebih enggan untuk melakukan perubahan atau mengulang pekerjaan Anda.Dengan demikian, Anda dapat mengabaikan permintaan wajar untuk perubahan yang dibuat oleh kolaborator atau kolega, atau Anda mungkin tergoda untuk menggunakan kembali angka lama meskipun Anda benar-benar membuat ulang semua data. Ini bukan contoh buatan. Saya telah melihat mereka semua bermain dengan orang-orang nyata dan surat kabar nyata. Ketiga, Anda sendiri mungkin lupa apa yang sebenarnya Anda lakukan untuk menyiapkan angka yang diberikan, atau Anda mungkin tidak dapat menghasilkan angka masa depan pada data baru yang secara visual sama persis dengan angka Anda sebelumnya.
Untuk semua alasan di atas, program plot interaktif adalah ide yang buruk. Mereka secara inheren memaksa Anda untuk secara manual menyiapkan angka Anda. Bahkan, mungkin lebih baik untuk secara otomatis menghasilkan gambar konsep dan merapikannya di Illustrator daripada membuat seluruh gambar dengan tangan di beberapa program plot interaktif. Perlu diketahui bahwa Excel juga merupakan program plot interaktif dan tidak direkomendasikan untuk persiapan gambar (atau analisis data).
Salah satu komponen penting dalam sebuah buku tentang visualisasi data adalah kelayakan dari visualisasi yang diusulkan. Sangat menyenangkan untuk menciptakan beberapa cara visualisasi baru yang elegan, tetapi jika tidak ada yang dapat dengan mudah menghasilkan angka menggunakan visualisasi ini maka tidak ada banyak gunanya.Sebagai contoh, ketika Tufte pertama kali mengusulkan sparklines, tidak ada yang punya cara mudah untuk membuatnya. Sementara kita membutuhkan visioner yang menggerakkan dunia foward dengan mendorong amplop dari apa yang mungkin, saya membayangkan buku ini menjadi praktis dan langsung berlaku untuk para ilmuwan data yang bekerja menyiapkan angka-angka untuk publikasi mereka.Oleh karena itu, visualisasi yang saya usulkan dalam bab-bab selanjutnya dapat dihasilkan dengan beberapa baris kode R melalui ggplot2 dan paket ekstensi yang tersedia.Faktanya, hampir setiap figur dalam buku ini, dengan pengecualian beberapa figur dalam Bab 26 , 27 , dan 28 , diautogenisasi persis seperti yang ditunjukkan.

Ucapan Terima Kasih

Proyek ini tidak akan mungkin terjadi tanpa kerja luar biasa yang telah dilakukan oleh tim RStudio untuk mengubah alam semesta R menjadi platform penerbitan kelas satu. Secara khusus, saya harus berterima kasih kepada Hadley Wickham karena membuat ggplot2 , perangkat lunak yang digunakan untuk membuat semua angka dalam buku ini. Saya juga ingin mengucapkan terima kasih kepada Yihui Xie karena membuat R Markdown dan untuk menulis paket rajutan dan bookdown . Saya tidak berpikir saya akan memulai proyek ini tanpa alat ini siap untuk digunakan. Menulis file R Markdown itu menyenangkan, dan mudah mengumpulkan materi dan mendapatkan momentum. Terima kasih khusus kepada Achim Zeileis dan Reto Stauffer untuk colorspace , Thomas Lin Pedersen untuk ggforce dan gganimate , Kamil Slowikowski untuk ggrepel , Edzer Pebesma untuk sf , dan Claire McWhite untuk karyanya di colorspace dan colorblindruntuk mensimulasikan kekurangan penglihatan warna pada angka-angka R yang dirangkai. .
Beberapa orang telah memberikan umpan balik yang bermanfaat tentang versi konsep buku ini. Yang paling penting, Mike Loukides, editor saya di O'Reilly, dan Steve Haroz telah membaca dan mengomentari setiap bab. Saya juga menerima komentar yang bermanfaat dari Carl Bergstrom, Jessica Hullman, Matthew Kay, Edzer Pebesma, Tristan Mahr, Jon Schwabish, dan Hadley Wickham. Blog Len Kiefer dan buku serta posting Kieran Healy telah memberikan banyak inspirasi bagi tokoh-tokoh untuk dibuat dan kumpulan data untuk digunakan. Sejumlah orang menunjukkan masalah kecil atau kesalahan ketik, termasuk Thiago Arrais, Malcolm Barrett, Jessica Burnett, Jon Calder, Antônio Pedro Camargo, Kartu Daren, Kim Cressman, Akos Hajdu, Andrew Kinsman, Will Koehrsen, Alex Lalejini, John Leadley, Katrin Leinweber, Mikel Madina, Claire McWhite, S'busiso Mkhondwane, Jose Nazario, Steve Putman, Maelle Salmon, Christian Schudoma, James Scott-Brown, Enrico Spinielli, Wouter van der Bijl, dan Ron Yurko.
Saya juga ingin mengucapkan terima kasih yang lebih luas kepada semua kontributor lainnya untuk Tidyverse dan komunitas R secara umum. Benar-benar ada paket R untuk setiap tantangan visualisasi yang mungkin ditemui. Semua paket ini telah dikembangkan oleh komunitas luas yang terdiri dari ribuan ilmuwan data dan ahli statistik, dan banyak dari mereka dalam beberapa bentuk berkontribusi pada pembuatan buku ini.