13 Memvisualisasikan deret waktu dan fungsi lain dari variabel independen
Bab sebelumnya membahas plot pencar, di mana kami memplot satu variabel kuantitatif terhadap yang lain. Kasus khusus muncul ketika salah satu dari dua variabel dapat dianggap sebagai waktu, karena waktu memaksakan struktur tambahan pada data. Sekarang titik data memiliki urutan bawaan; kita dapat mengatur titik-titik dalam urutan waktu yang meningkat dan menentukan pendahulu dan penerus untuk setiap titik data. Kami sering ingin memvisualisasikan tatanan sementara ini dan kami melakukannya dengan grafik garis. Grafik garis tidak terbatas pada deret waktu. Mereka sesuai setiap kali satu variabel memaksakan pemesanan pada data. Skenario ini muncul juga, misalnya, dalam percobaan terkontrol di mana variabel perlakuan sengaja diatur ke berbagai nilai yang berbeda. Jika kita memiliki beberapa variabel yang bergantung pada waktu, kita dapat menggambar plot garis yang terpisah atau kita bisa menggambar plot pencar biasa dan kemudian menggambar garis untuk menghubungkan titik-titik tetangga dalam waktu.
13.1 Rangkaian waktu individu
Sebagai demonstrasi pertama dari rangkaian waktu, kami akan mempertimbangkan pola pengiriman pracetak bulanan dalam biologi. Pracetak adalah artikel ilmiah yang dikirim oleh peneliti secara online sebelum tinjauan sejawat formal dan publikasi dalam jurnal ilmiah. Server preprint bioRxiv, yang didirikan pada November 2013 khusus untuk para peneliti yang bekerja dalam ilmu biologi, telah melihat pertumbuhan substansial dalam pengiriman bulanan sejak itu. Kami dapat memvisualisasikan pertumbuhan ini dengan membuat bentuk sebar plot (Bab 12 ) di mana kami menggambar titik-titik yang mewakili jumlah pengiriman di setiap bulan (Gambar 13.1 ).

Gambar 13.1: Pengajuan bulanan ke server preprint bioRxiv, dari awal pada November 2014 hingga April 2018. Setiap titik mewakili jumlah pengiriman dalam satu bulan. Telah ada peningkatan yang stabil dalam volume pengiriman sepanjang periode 4,5 tahun. Sumber data: Jordan Anaya, http://www.prepubmed.org/
Namun ada perbedaan penting antara Gambar 13.1 dan plot pencar yang dibahas dalam Bab 12 . Pada Gambar 13.1 , titik-titik tersebut ditempatkan secara merata di sepanjang sumbu x , dan ada urutan yang pasti di antara mereka.Setiap titik memiliki tepat satu tetangga kiri dan satu tetangga kanan (kecuali titik paling kiri dan paling kanan yang masing-masing hanya memiliki satu tetangga). Kami dapat secara visual menekankan urutan ini dengan menghubungkan titik-titik tetangga dengan garis (Gambar 13.2 ). Plot semacam itu disebut grafik garis .

Gambar 13.2: Pengajuan bulanan ke server preprint bioRxiv, ditampilkan sebagai titik yang dihubungkan oleh garis. Garis tidak mewakili data tetapi hanya dimaksudkan sebagai panduan bagi mata. Dengan menghubungkan masing-masing titik dengan garis, kami menekankan bahwa ada urutan antara titik-titik, setiap titik memiliki tepat satu tetangga yang datang sebelum dan yang datang setelah. Sumber data: Jordan Anaya, http://www.prepubmed.org/
Beberapa orang keberatan menggambar garis di antara titik karena garis tidak mewakili data yang diamati. Khususnya, jika hanya ada beberapa pengamatan yang berjarak berjauhan, seandainya pengamatan dilakukan pada waktu menengah, mereka mungkin tidak akan jatuh tepat ke garis yang ditunjukkan. Dengan demikian, dalam beberapa hal, garis-garis tersebut sesuai dengan data yang dibuat-buat.Namun mereka dapat membantu dengan persepsi ketika titik-titik tersebut ditempatkan berjauhan atau berjarak tidak sama.Kita agak dapat menyelesaikan dilema ini dengan menunjukkannya pada keterangan gambar, misalnya dengan menulis "garis-garis dimaksudkan sebagai panduan untuk mata" (lihat keterangan Gambar 13.2 ).
Namun, menggunakan garis untuk mewakili deret waktu adalah praktik yang diterima secara umum, dan seringkali titik-titik tersebut dihilangkan sama sekali (Gambar 13.3 ).Tanpa titik, gambar tersebut lebih menekankan pada tren keseluruhan dalam data dan kurang pada pengamatan individu. Sosok tanpa titik juga secara visual kurang sibuk.Secara umum, semakin padat deret waktunya, semakin tidak penting menunjukkan pengamatan individu dengan titik-titik.Untuk dataset pracetak yang ditampilkan di sini, saya pikir menghilangkan titik-titik itu baik-baik saja.

Gambar 13.3: Pengajuan bulanan ke server preprint bioRxiv, ditampilkan sebagai grafik garis tanpa titik. Menghilangkan titik-titik menekankan tren temporal keseluruhan sementara de-menekankan pengamatan individu pada titik waktu tertentu. Ini sangat berguna ketika titik waktu ditempatkan sangat padat. Sumber data: Jordan Anaya, http://www.prepubmed.org/
Kita juga bisa mengisi area di bawah kurva dengan warna solid (Gambar 13.4 ). Pilihan ini lebih jauh menekankan tren menyeluruh dalam data, karena secara visual memisahkan area di atas kurva dari area di bawah ini. Namun, visualisasi ini hanya valid jika sumbu y dimulai dari nol, sehingga ketinggian area yang diarsir pada setiap titik waktu mewakili nilai data pada titik waktu tersebut.

Gambar 13.4: Pengajuan bulanan ke server preprint bioRxiv, ditampilkan sebagai grafik garis dengan area terisi di bawahnya. Dengan mengisi area di bawah kurva, kita lebih menekankan tren temporal yang menyeluruh daripada jika kita hanya menggambar garis (Gambar 13.3 ). Sumber data: Jordan Anaya, http://www.prepubmed.org/
13.2 Beberapa rangkaian waktu dan kurva dosis-respons
Kami sering memiliki beberapa program waktu yang ingin kami tampilkan sekaligus. Dalam hal ini, kita harus lebih berhati-hati dalam cara kita memplot data, karena angka tersebut dapat menjadi membingungkan atau sulit dibaca.Sebagai contoh, jika kita ingin menunjukkan kiriman bulanan ke beberapa server pracetak, sebaran sebaran bukanlah ide yang baik, karena masing-masing program berjalan bersamaan (Gambar 13.5 ). Menghubungkan titik-titik dengan garis mengurangi masalah ini (Gambar 13.6 ).

Gambar 13.5: Pengajuan bulanan ke tiga server pracetak yang mencakup penelitian biomedis: bioRxiv, bagian q-bio dari arXiv, dan PeerJ Preprints.Setiap titik mewakili jumlah pengiriman dalam satu bulan ke server pracetak masing-masing. Angka ini diberi label "buruk" karena tiga kursus waktu secara visual saling mengganggu dan sulit dibaca. Sumber data: Jordan Anaya, http://www.prepubmed.org/

Gambar 13.6: Pengiriman bulanan ke tiga server pracetak yang mencakup penelitian biomedis. Dengan menghubungkan titik-titik pada Gambar 13.5dengan garis, kami membantu pemirsa mengikuti setiap kursus waktu individu. Sumber data: Jordan Anaya, http://www.prepubmed.org/
Gambar 13.6 menunjukkan visualisasi yang dapat diterima dari dataset pracetak. Namun, legenda yang terpisah menciptakan beban kognitif yang tidak perlu. Kita dapat mengurangi muatan kognitif ini dengan memberi label pada garis secara langsung (Gambar 13.7 ). Kami juga telah menghilangkan titik-titik individual pada gambar ini, untuk hasil yang jauh lebih ramping dan mudah dibaca daripada titik awal aslinya, Gambar 13.5 .

Gambar 13.7: Pengajuan bulanan ke tiga server pracetak yang mencakup penelitian biomedis. Dengan memberi label langsung pada garis alih-alih memberikan legenda, kami telah mengurangi beban kognitif yang diperlukan untuk membaca gambar. Dan penghapusan legenda menghilangkan kebutuhan akan titik-titik dari berbagai bentuk. Dengan demikian, kita dapat merampingkan gambar lebih jauh dengan menghilangkan titik-titik. Sumber data: Jordan Anaya, http://www.prepubmed.org/
Grafik garis tidak terbatas pada deret waktu. Mereka sesuai setiap kali titik data memiliki urutan alami yang tercermin dalam variabel yang ditunjukkan di sepanjang sumbu x , sehingga titik tetangga dapat dihubungkan dengan garis.Situasi ini muncul, misalnya, dalam kurva dosis-respons, di mana kami mengukur bagaimana mengubah beberapa parameter numerik dalam percobaan (dosis) memengaruhi hasil yang diinginkan (respons). Gambar 13.8 menunjukkan eksperimen klasik jenis ini, mengukur hasil gandum sebagai respons terhadap peningkatan jumlah pemupukan.Visualisasi grafik garis menyoroti bagaimana kurva dosis-respons memiliki bentuk yang serupa untuk ketiga varietas gandum yang dipertimbangkan tetapi berbeda pada titik awal dengan tidak adanya pemupukan (yaitu, beberapa varietas memiliki hasil yang secara alami lebih tinggi daripada yang lain).

Gambar 13.8: Dosis-respons kurva menunjukkan hasil rata-rata varietas gandum setelah pemupukan dengan pupuk kandang. Kotoran berfungsi sebagai sumber nitrogen, dan hasil oat umumnya meningkat karena lebih banyak nitrogen tersedia, terlepas dari variasi. Di sini, aplikasi pupuk diukur dalam cwt (berat seratus) per are. Berat seratus adalah unit kekaisaran tua yang sama dengan 112 lbs atau 50,8 kg. Sumber data: Yates ( 1935 )
13.3 Rangkaian waktu dari dua atau lebih variabel respon
Dalam contoh sebelumnya kita berurusan dengan kursus waktu hanya satu variabel respon tunggal (misalnya, pengiriman pracetak per bulan atau hasil gandum). Namun, bukan hal yang aneh untuk memiliki lebih dari satu variabel respons. Situasi seperti itu biasanya muncul dalam ekonomi makro. Sebagai contoh, kita mungkin tertarik dengan perubahan harga rumah dari 12 bulan sebelumnya karena ini berkaitan dengan tingkat pengangguran. Kita mungkin berharap bahwa harga rumah naik ketika tingkat pengangguran rendah dan sebaliknya.
Mengingat alat-alat dari subbagian sebelumnya, kita dapat memvisualisasikan data seperti dua grafik garis terpisah yang ditumpuk satu sama lain (Gambar 13.9 ). Plot ini secara langsung menunjukkan dua variabel yang menarik, dan mudah untuk ditafsirkan. Namun, karena dua variabel ditampilkan sebagai grafik garis yang terpisah, menggambar perbandingan di antara mereka bisa menjadi rumit. Jika kita ingin mengidentifikasi daerah temporal ketika kedua variabel bergerak dalam arah yang sama atau berlawanan, kita perlu beralih bolak-balik antara dua grafik dan membandingkan kemiringan relatif dari dua kurva.

Gambar 13.9: 12 bulan perubahan harga rumah (a) dan tingkat pengangguran (b) dari waktu ke waktu, dari Januari 2001 hingga Desember 2017. Sumber data: Indeks Harga Rumah Freddie Mac, Biro Statistik Tenaga Kerja AS.
Sebagai alternatif untuk menunjukkan dua grafik garis yang terpisah, kita dapat memplot dua variabel terhadap satu sama lain, menggambar jalur yang mengarah dari titik waktu paling awal ke titik terbaru (Gambar 13.10 ). Visualisasi seperti itu disebut plot sebaran yang terhubung , karena kami secara teknis membuat plot sebaran dari dua variabel terhadap satu sama lain dan kemudian menghubungkan titik-titik tetangga.Fisikawan dan insinyur sering menyebutnya potret fase , karena dalam disiplin ilmu mereka biasanya digunakan untuk mewakili gerakan dalam ruang fase. Kami sebelumnya telah menemukan plot sebar yang terhubung di Bab 3 , di mana kami merencanakan normals suhu harian di Houston, TX, dibandingkan yang ada di San Diego, CA (Gambar 3.3 ).

Gambar 13.10: Perubahan harga rumah 12-bulan terhadap tingkat pengangguran, dari Januari 2001 hingga Desember 2017, ditunjukkan sebagai sebaran plot yang terhubung. Nuansa yang lebih gelap mewakili beberapa bulan terakhir. Anti-korelasi yang terlihat pada Gambar 13.9antara perubahan harga rumah dan tingkat pengangguran menyebabkan plot pencar yang terhubung membentuk dua lingkaran berlawanan arah jarum jam. Sumber data: Indeks Harga Rumah Freddie Mac, Biro Statistik Tenaga Kerja AS. Konsep tokoh asli: Len Kiefer
Dalam sebaran plot yang terhubung, garis yang mengarah ke arah dari kiri bawah ke kanan atas mewakili gerakan yang berkorelasi antara dua variabel (ketika satu variabel tumbuh, begitu juga variabel lainnya), dan garis yang bergerak ke arah tegak lurus, dari kiri atas ke kanan bawah, mewakili gerakan anti-berkorelasi (ketika satu variabel tumbuh, yang lain menyusut). Jika kedua variabel memiliki hubungan yang agak siklik, kita akan melihat lingkaran atau spiral di plot sebaran yang terhubung. Dalam Gambar 13.10 , kita melihat satu lingkaran kecil dari tahun 2001 hingga 2005 dan satu lingkaran besar untuk sisa kursus waktu.
Saat menggambar sebar plot yang terhubung, penting bahwa kami menunjukkan arah dan skala temporal data. Tanpa petunjuk seperti itu, plot dapat berubah menjadi coretan yang tidak berarti (Gambar 13.11 ). Saya menggunakan di sini (dalam Gambar 13.10 ) warna gelap untuk menunjukkan arah. Atau, seseorang dapat menggambar panah di sepanjang jalan.

Gambar 13.11: 12 bulan perubahan harga rumah versus tingkat pengangguran, dari Januari 2001 hingga Desember 2017. Angka ini diberi label "buruk" karena tanpa penanda tanggal dan naungan warna pada Gambar 13.10 , kita tidak bisa melihat arah maupun arah. kecepatan perubahan data. Sumber data: Indeks Harga Rumah Freddie Mac, Biro Statistik Tenaga Kerja AS.
Apakah lebih baik menggunakan sebar plot yang terhubung atau dua grafik garis terpisah? Grafik garis yang terpisah cenderung lebih mudah dibaca, tetapi begitu orang terbiasa menghubungkan plot pencar, mereka mungkin dapat mengekstraksi pola-pola tertentu (seperti perilaku siklus dengan beberapa ketidakteraturan) yang mungkin sulit untuk dilihat dalam grafik garis. Sebenarnya, bagi saya hubungan siklus antara perubahan harga rumah dan tingkat pengangguran sulit untuk dilihat pada Gambar 13.9 , tetapi spiral berlawanan arah jarum jam pada Gambar 13.10 jelas menunjukkannya. Penelitian melaporkan bahwa pembaca lebih mungkin mengacaukan urutan dan arah dalam plot sebaran yang terhubung daripada dalam grafik garis dan lebih kecil kemungkinannya untuk melaporkan korelasi (Haroz, Kosara, dan Franconeri 2016 ) . Di sisi lain, plot pencar yang terhubung tampaknya menghasilkan keterlibatan yang lebih tinggi, dan karenanya plot tersebut dapat menjadi alat yang efektif untuk menarik pembaca ke dalam sebuah cerita (Haroz, Kosara, dan Franconeri 2016 ) .
Meskipun plot pencar yang terhubung hanya dapat menampilkan dua variabel pada satu waktu, kami juga dapat menggunakannya untuk memvisualisasikan kumpulan data dimensi yang lebih tinggi. Caranya adalah dengan menerapkan pengurangan dimensi terlebih dahulu (lihat Bab 12 ). Kami kemudian dapat menggambar sebar terhubung di ruang dimensi-dikurangi. Sebagai contoh dari pendekatan ini, kami akan memvisualisasikan database pengamatan bulanan lebih dari 100 indikator ekonomi makro, yang disediakan oleh Federal Reserve Bank of St. Louis. Kami melakukan analisis komponen utama (PCA) dari semua indikator dan kemudian menggambar sebar plot yang terhubung PC 2 versus PC 1 (Gambar 13.12 a) dan versus PC 3 (Gambar 13.12 b).

Gambar 13.12: Memvisualisasikan deret waktu dimensi tinggi sebagai sebaran plot yang terhubung dalam ruang komponen utama. Jalur ini menunjukkan pergerakan bersama lebih dari 100 indikator ekonomi makro dari Januari 1990 hingga Desember 2017. Waktu resesi dan pemulihan ditunjukkan melalui warna, dan titik akhir dari tiga resesi (Maret 1991, November 2001, dan Juni 2009) juga diberi label . (a) PC 2 versus PC 1. (b) PC 2 versus PC 3. Sumber data: MW McCracken, St. Louis Fed
Khususnya, Gambar 13.12 a terlihat hampir seperti plot garis biasa, dengan waktu berjalan dari kiri ke kanan. Pola ini disebabkan oleh fitur umum PCA: Komponen pertama sering mengukur ukuran keseluruhan sistem. Di sini, PC 1 kira-kira mengukur ukuran keseluruhan ekonomi, yang jarang berkurang seiring waktu.
Dengan mewarnai plot pencar yang terhubung dengan saat resesi dan pemulihan, kita dapat melihat bahwa resesi dikaitkan dengan penurunan PC 2 sedangkan pemulihan tidak sesuai dengan fitur yang jelas di PC 1 atau PC 2 (Gambar 13.12 a). Namun, pemulihan tampaknya sesuai dengan penurunan PC 3 (Gambar 13.12 b). Selain itu, dalam plot PC 2 versus PC 3, kita melihat bahwa garis mengikuti bentuk spiral searah jarum jam. Pola ini menekankan sifat siklus ekonomi, dengan resesi setelah pemulihan dan sebaliknya.
Referensi
Yates, F. 1935. "Eksperimen Kompleks." Tambahan untuk Jurnal Masyarakat Statistik Kerajaan 2: 181–247. doi: 10.2307 / 2983638 .
Haroz, S., R. Kosara, dan S. Franconeri. 2016. "The Scatterplot Connected untuk Mempresentasikan Seri Waktu yang Dipasangkan." Transaksi IEEE pada Visualisasi dan Grafik Komputer 22: 2174–86. doi: 10.1109 / TVCG.2015.2502587 .
