Memvisualisasikan distribusi: Fungsi distribusi kumulatif empiris dan plot qq

8 Memvisualisasikan distribusi: Fungsi distribusi kumulatif empiris dan plot qq

Dalam Bab 7 , saya menjelaskan bagaimana kita bisa memvisualisasikan distribusi dengan histogram atau plot kepadatan. Kedua pendekatan ini sangat intuitif dan menarik secara visual. Namun, seperti yang dibahas dalam bab itu, keduanya berbagi batasan bahwa angka yang dihasilkan tergantung pada derajat substansial pada parameter yang harus dipilih pengguna, seperti lebar bin untuk histogram dan bandwidth untuk plot kerapatan. Akibatnya, keduanya harus dianggap sebagai interpretasi data daripada visualisasi langsung dari data itu sendiri.
Sebagai alternatif untuk menggunakan histogram atau plot kerapatan, kami dapat dengan mudah menunjukkan semua titik data secara individu, sebagai titik awan. Namun, pendekatan ini menjadi sulit untuk dataset yang sangat besar, dan dalam setiap kasus ada nilai dalam metode agregat yang menyoroti properti distribusi daripada titik data individu. Untuk mengatasi masalah ini, ahli statistik telah menemukan fungsi distribusi kumulatif empiris (ecdfs) dan plot quantile-quantile (qq). Jenis visualisasi ini tidak memerlukan pilihan parameter yang sewenang-wenang, dan mereka menampilkan semua data sekaligus. Sayangnya, mereka sedikit kurang intuitif daripada histogram atau plot kepadatan, dan saya tidak melihat mereka sering digunakan di luar publikasi yang sangat teknis. Mereka cukup populer di kalangan ahli statistik, dan saya pikir siapa pun yang tertarik dengan visualisasi data harus terbiasa dengan teknik ini.

8.1 Fungsi distribusi kumulatif empiris

Untuk mengilustrasikan fungsi distribusi empiris kumulatif, saya akan mulai dengan contoh hipotetis yang dimodelkan dengan cermat setelah sesuatu yang saya tangani sebagai profesor di kelas: set data nilai siswa. Anggaplah kelas hipotetis kita memiliki 50 siswa, dan siswa baru saja menyelesaikan ujian di mana mereka dapat skor antara 0 dan 100 poin. Bagaimana cara terbaik kita memvisualisasikan kinerja kelas, misalnya untuk menentukan batas kelas yang sesuai?
Kami dapat memplot jumlah total siswa yang telah menerima paling banyak sejumlah poin versus semua skor poin yang memungkinkan. Plot ini akan menjadi fungsi naik, mulai dari 0 untuk 0 poin dan berakhir pada 50 untuk 100 poin. Cara berpikir yang berbeda tentang visualisasi ini adalah sebagai berikut: Kita dapat membuat peringkat semua siswa berdasarkan jumlah poin yang mereka peroleh, dalam urutan menaik (sehingga siswa dengan poin paling sedikit menerima peringkat terendah dan siswa dengan poin terbanyak tertinggi tertinggi) , dan lalu plot pangkat versus poin aktual yang diperoleh. Hasilnya adalah fungsi distribusi kumulatif empiris (ecdf) atau distribusi kumulatif sederhana . Setiap titik mewakili satu siswa, dan garis memvisualisasikan peringkat siswa tertinggi yang diamati untuk setiap nilai poin yang memungkinkan (Gambar 8.1 ).
Fungsi distribusi kumulatif empiris nilai siswa untuk kelas hipotetis 50 siswa.
Gambar 8.1: Fungsi distribusi kumulatif empiris nilai siswa untuk kelas hipotetis 50 siswa.
Anda mungkin bertanya-tanya apa yang terjadi jika kami memberi peringkat pada siswa sebaliknya, dalam urutan menurun. Peringkat ini hanya membalik fungsi di kepalanya.Hasilnya masih merupakan fungsi distribusi kumulatif empiris, tetapi garis sekarang mewakili peringkat siswa terendah yang diamati untuk setiap nilai poin yang mungkin (Gambar 8.2 ).
Distribusi nilai siswa diplot sebagai descending ecdf.
Gambar 8.2: Distribusi nilai siswa diplot sebagai ecdf turun.
Fungsi distribusi kumulatif naik lebih banyak dikenal dan lebih umum digunakan daripada yang turun, tetapi keduanya memiliki aplikasi penting. Fungsi distribusi kumulatif menurun sangat penting ketika kami ingin memvisualisasikan distribusi yang sangat miring (lihat Bagian 8.2 ).
Dalam aplikasi praktis, sangat umum untuk menggambar ecdf tanpa menyoroti poin individu dan untuk menormalkan peringkat dengan peringkat maksimum, sehingga sumbu ymewakili frekuensi kumulatif (Gambar 8.3 ).
Ecdf nilai siswa. Peringkat siswa telah dinormalisasi ke jumlah siswa, sehingga nilai y yang diplot sesuai dengan fraksi siswa di kelas dengan paling banyak poin.
Gambar 8.3: Ecdf nilai siswa. Peringkat siswa telah dinormalisasi ke jumlah siswa, sehingga nilai y yang diplot sesuai dengan fraksi siswa di kelas dengan paling banyak poin.
Kita dapat langsung membaca properti kunci dari distribusi nilai siswa dari plot ini. Sebagai contoh, sekitar seperempat dari siswa (25%) menerima kurang dari 75 poin. Nilai titik tengah (sesuai dengan frekuensi kumulatif 0,5) adalah 81. Sekitar 20% siswa menerima 90 poin atau lebih.
Saya menemukan ecdfs berguna untuk menetapkan batas kelas karena mereka membantu saya menemukan cutoff tepat yang meminimalkan ketidakbahagiaan siswa. Misalnya, dalam contoh ini, ada garis horizontal yang cukup panjang tepat di bawah 80 poin, diikuti oleh kenaikan tajam di 80. Fitur ini disebabkan oleh tiga siswa yang menerima 80 poin pada ujian mereka sementara siswa yang berkinerja lebih buruk berikutnya hanya menerima 76. Dalam skenario ini, saya dapat memutuskan bahwa setiap orang dengan skor poin 80 atau lebih menerima B dan semua orang dengan 79 atau kurang menerima C. Tiga siswa dengan 80 poin senang bahwa mereka hanya membuat B, dan siswa dengan 76 menyadari bahwa mereka harus melakukan jauh lebih baik untuk tidak menerima C. Jika saya menetapkan cutoff pada 77, distribusi nilai surat akan persis sama, tetapi saya mungkin menemukan siswa dengan 76 poin mengunjungi kantor saya berharap untuk menegosiasikan nilai mereka.Demikian juga, jika saya menetapkan batas waktu 81, saya mungkin akan memiliki tiga siswa di kantor saya mencoba untuk menegosiasikan nilai mereka.

8.2 Distribusi yang sangat miring

Banyak dataset empiris menampilkan distribusi yang sangat miring, khususnya dengan ekor yang berat ke kanan, dan distribusi ini dapat menantang untuk divisualisasikan. Contoh distribusi tersebut termasuk jumlah orang yang tinggal di berbagai kota atau kabupaten, jumlah kontak di jejaring sosial, frekuensi kemunculan kata-kata individual dalam sebuah buku, jumlah makalah akademik yang ditulis oleh penulis yang berbeda, kekayaan bersih dari individu, dan jumlah mitra interaksi protein individu dalam jaringan interaksi protein-protein ( Clauset, Shalizi, dan Newman ( 2009 ) ).Semua distribusi ini memiliki kesamaan sehingga ekor kanannya meluruh lebih lambat daripada fungsi eksponensial. Dalam praktiknya, ini berarti bahwa nilai yang sangat besar tidak terlalu langka, bahkan jika rata-rata distribusinya kecil. Kelas penting dari distribusi tersebut adalah distribusi power-law , di mana kemungkinan untuk mengamati nilai yang x kali lebih besar dari beberapa titik referensi menurun sebagai kekuatan x . Untuk memberikan contoh nyata, pertimbangkan kekayaan bersih di AS, yang didistribusikan menurut undang-undang kekuasaan dengan eksponen 2. Pada tingkat kekayaan bersih mana pun (katakanlah, $ 1 juta), orang dengan setengah dari kekayaan bersih itu empat kali lebih sering , dan orang dengan kekayaan bersih dua kali lipat lebih sering dari seperempat.Yang penting, hubungan yang sama berlaku jika kita menggunakan $ 10.000 sebagai titik referensi atau jika kita menggunakan $ 100 juta. Karena alasan ini, distribusi kuasa-hukum juga disebut distribusi bebas-skala .
Di sini, saya pertama-tama akan membahas jumlah orang yang tinggal di berbagai negara AS menurut Sensus AS 2010. Distribusi ini memiliki ekor yang sangat panjang ke kanan. Meskipun sebagian besar kabupaten memiliki jumlah penduduk yang relatif kecil (median adalah 25.857), beberapa kabupaten memiliki jumlah penduduk yang sangat besar (misalnya, Kabupaten Los Angeles, dengan 9.818.605 penduduk). Jika kami mencoba memvisualisasikan distribusi jumlah populasi sebagai plot kepadatan atau ecdf, kami memperoleh angka yang pada dasarnya tidak berguna (Gambar 8.4 ).
Distribusi jumlah penduduk di kabupaten AS, menurut Sensus AS 2010. (a) Plot kepadatan. (B) Fungsi distribusi kumulatif empiris.
Gambar 8.4: Distribusi jumlah penduduk di kabupaten AS, menurut Sensus AS 2010. (a) Plot kepadatan. (B) Fungsi distribusi kumulatif empiris.
Plot kepadatan (Gambar 8.4 a) menunjukkan puncak tajam tepat pada 0 dan hampir tidak ada detail distribusi yang terlihat. Demikian pula, ecdf (Gambar 8.4 b) menunjukkan kenaikan cepat di dekat 0 dan sekali lagi tidak ada rincian distribusi yang terlihat. Untuk dataset khusus ini, kita dapat melakukan log-transform data dan memvisualisasikan distribusi nilai-nilai yang ditransformasikan log. Transformasi ini bekerja di sini karena jumlah populasi di kabupaten sebenarnya bukan undang-undang kekuasaan, melainkan mengikuti distribusi log-normal yang hampir sempurna (lihat Bagian 8.3 ). Memang, plot kerapatan dari nilai-nilai yang ditransformasikan log menunjukkan kurva lonceng yang bagus dan ecdf yang sesuai menunjukkan bentuk sigmoid yang bagus (Gambar 8.5 ).
Distribusi logaritma jumlah penduduk di kabupaten AS. (a) Plot kepadatan. (B) Fungsi distribusi kumulatif empiris.
Gambar 8.5: Distribusi logaritma jumlah penduduk di kabupaten AS. (a) Plot kepadatan. (B) Fungsi distribusi kumulatif empiris.
Untuk melihat bahwa distribusi ini bukan hukum kekuatan, kami memplotnya sebagai ecdf yang menurun dengan sumbu x dan y logaritmik. Dalam visualisasi ini, hukum kekuasaan muncul sebagai garis lurus yang sempurna.Untuk populasi yang diperhitungkan di kabupaten, ekor kanan hampir tidak membentuk garis lurus pada plot log-log ecdf menurun (Gambar 8.6 ).
Frekuensi relatif dari kabupaten dengan setidaknya jumlah penduduk yang banyak versus jumlah penduduk kabupaten.
Gambar 8.6: Frekuensi relatif dari kabupaten dengan paling sedikit jumlah penduduk versus jumlah penduduk kabupaten.
Sebagai contoh kedua, saya akan menggunakan distribusi frekuensi kata untuk semua kata yang muncul dalam novel Moby Dick. Distribusi ini mengikuti hukum kekuasaan yang sempurna. Ketika diplot sebagai descending ecdf dengan sumbu logaritmik, kita melihat garis lurus yang hampir sempurna (Gambar 8.7 ).
Distribusi jumlah kata dalam novel Moby Dick. Tampil adalah frekuensi relatif dari kata-kata yang muncul setidaknya beberapa kali dalam novel versus jumlah kata yang digunakan.
Gambar 8.7: Distribusi jumlah kata dalam novel Moby Dick. Tampil adalah frekuensi relatif dari kata-kata yang muncul setidaknya beberapa kali dalam novel versus jumlah kata yang digunakan.

8.3 Plot kuantil-kuantil

Plot kuantil-kuantil (qq) adalah visualisasi yang berguna ketika kita ingin menentukan sejauh mana titik data yang diamati melakukan atau tidak mengikuti distribusi yang diberikan. Sama seperti ecdfs, plot qq juga didasarkan pada peringkat data dan memvisualisasikan hubungan antara peringkat dan nilai aktual. Namun, dalam plot qq kita tidak memplot peringkat secara langsung, kita menggunakannya untuk memprediksi di mana titik data yang diberikan harus jatuh jika data didistribusikan sesuai dengan distribusi referensi yang ditentukan. Paling umum, plot qq dibangun menggunakan distribusi normal sebagai referensi. Untuk memberikan contoh konkret, anggap nilai data aktual memiliki rata-rata 10 dan standar deviasi 3. Kemudian, dengan asumsi distribusi normal, kita akan mengharapkan titik data peringkat di persentil ke-50 untuk berada di posisi 10 (rata-rata) , titik data pada persentil ke-84 berada di posisi 13 (satu standar deviasi di atas dari rata-rata), dan titik data di persentil ke-2.3 berada di posisi 4 (dua standar deviasi di bawah rata-rata).Kita dapat melakukan perhitungan ini untuk semua titik dalam dataset dan kemudian memplot nilai yang diamati (yaitu, nilai dalam dataset) terhadap nilai-nilai teoritis (yaitu, nilai yang diharapkan diberikan peringkat setiap titik data dan distribusi referensi yang diasumsikan).
Ketika kami melakukan prosedur ini untuk distribusi nilai siswa dari awal bab ini, kami memperoleh Gambar 8.8 .
petak q-q nilai siswa.
Gambar 8.8: plot qq nilai siswa.
Garis solid di sini bukan garis regresi tetapi menunjukkan titik di mana x sama dengan y , yaitu, di mana nilai-nilai yang diamati sama dengan yang teoritis. Sejauh titik jatuh ke garis itu, data mengikuti distribusi yang diasumsikan (di sini, normal). Kami melihat bahwa nilai siswa sebagian besar mengikuti distribusi normal, dengan beberapa penyimpangan di bagian bawah dan di atas (beberapa siswa berkinerja lebih buruk daripada yang diharapkan di kedua ujung).Penyimpangan dari distribusi di ujung atas disebabkan oleh nilai poin maksimum 100 dalam ujian hipotetis; terlepas dari seberapa bagus murid terbaiknya, ia paling banyak dapat memperoleh 100 poin.
Kita juga dapat menggunakan plot qq untuk menguji pernyataan saya sebelumnya di bab ini bahwa jumlah populasi di negara-negara AS mengikuti distribusi log-normal.Jika jumlah ini terdistribusi secara log normal, maka nilai yang ditransformasikan log biasanya terdistribusi dan karenanya harus jatuh tepat ke garis x = y . Ketika membuat plot ini, kita melihat bahwa kesepakatan antara nilai-nilai yang diamati dan teoritis luar biasa (Gambar 8.9 ). Ini menunjukkan bahwa distribusi jumlah populasi di antara negara-negara memang log-normal.
q-q plot logaritma dari jumlah penduduk di kabupaten AS.
Gambar 8.9: plot qq logaritma dari jumlah penduduk di kabupaten AS.

Referensi

Clauset, A., CR Shalizi, dan MEJ Newman. 2009. "Distribusi Power-Law dalam Data Empiris." Ulasan SIAM 51: 661–703.