12 Memvisualisasikan asosiasi antara dua atau lebih variabel kuantitatif
Banyak dataset berisi dua atau lebih variabel kuantitatif, dan kami mungkin tertarik pada bagaimana variabel-variabel ini saling berhubungan. Sebagai contoh, kita mungkin memiliki set data pengukuran kuantitatif hewan yang berbeda, seperti tinggi, berat, panjang, dan kebutuhan energi harian hewan.Untuk memplot hubungan hanya dua variabel seperti itu, misalnya tinggi dan berat, kita biasanya akan menggunakan sebar plot. Jika kami ingin menunjukkan lebih dari dua variabel sekaligus, kami dapat memilih bagan gelembung, matriks sebar plot, atau korelasi. Akhirnya, untuk dataset sangat tinggi, mungkin berguna untuk melakukan pengurangan dimensi, misalnya dalam bentuk analisis komponen utama.
12.1 Plot pencar
Saya akan menunjukkan plot sebar dasar dan beberapa variasi daripadanya menggunakan dataset pengukuran yang dilakukan pada 123 burung blue jay. Dataset berisi informasi seperti panjang kepala (diukur dari ujung paruh ke belakang kepala), ukuran tengkorak (panjang kepala dikurangi panjang paruh), dan massa tubuh masing-masing burung. Kami berharap ada hubungan antara variabel-variabel ini. Misalnya, burung dengan tagihan yang lebih panjang diharapkan memiliki ukuran tengkorak yang lebih besar, dan burung dengan massa tubuh lebih tinggi harus memiliki tagihan dan tengkorak yang lebih besar daripada burung dengan massa tubuh lebih rendah.
Untuk mengeksplorasi hubungan-hubungan ini, saya mulai dengan sebidang panjang kepala terhadap massa tubuh (Gambar 12.1 ). Dalam plot ini, panjang kepala ditampilkan di sepanjang sumbu y , massa tubuh di sepanjang sumbu x , dan setiap burung diwakili oleh satu titik. (Perhatikan terminologinya: Kami mengatakan bahwa kami memplot variabel yang ditampilkan di sepanjang sumbu y terhadap variabel yang ditunjukkan di sepanjang sumbu x .) Titik-titik membentuk awan yang tersebar (maka istilah sebar plot ), namun tidak diragukan lagi ada kecenderungan untuk burung dengan massa tubuh yang lebih tinggi memiliki kepala yang lebih panjang. Burung dengan kepala terpanjang jatuh dekat dengan massa tubuh maksimum yang diamati, dan burung dengan kepala terpendek jatuh dekat dengan massa tubuh minimum yang diamati.

Gambar 12.1: Panjang kepala (diukur dari ujung paruh ke belakang kepala, dalam mm) versus massa tubuh (dalam gram), untuk 123 blue jay. Setiap titik berhubungan dengan satu burung. Ada kecenderungan moderat bahwa burung yang lebih berat memiliki kepala yang lebih panjang. Sumber data: Keith Tarvin, Oberlin College
Dataset blue jay berisi burung jantan dan betina, dan kita mungkin ingin tahu apakah hubungan keseluruhan antara panjang kepala dan massa tubuh bertahan secara terpisah untuk setiap jenis kelamin. Untuk menjawab pertanyaan ini, kita dapat mewarnai titik-titik dalam plot pencar berdasarkan jenis kelamin burung (Gambar 12.2 ). Angka ini mengungkapkan bahwa tren keseluruhan panjang kepala dan massa tubuh setidaknya sebagian didorong oleh jenis kelamin burung. Pada massa tubuh yang sama, perempuan cenderung memiliki kepala lebih pendek daripada laki-laki.Pada saat yang sama, rata-rata wanita cenderung lebih ringan daripada pria.

Gambar 12.2: Panjang kepala versus massa tubuh selama 123 blue jay.Jenis kelamin burung ditunjukkan oleh warna. Pada massa tubuh yang sama, burung jantan cenderung memiliki kepala lebih panjang (dan khususnya, tagihan lebih lama) daripada burung betina. Sumber data: Keith Tarvin, Oberlin College
Karena panjang kepala didefinisikan sebagai jarak dari ujung paruh ke belakang kepala, panjang kepala yang lebih besar dapat menyiratkan tagihan yang lebih panjang, tengkorak yang lebih besar, atau keduanya. Kita dapat memisahkan panjang tagihan dan ukuran tengkorak dengan melihat variabel lain dalam dataset, ukuran tengkorak, yang mirip dengan panjang kepala tetapi tidak termasuk tagihan. Karena kita sudah menggunakan posisi x untuk massa tubuh, posisi y untuk panjang kepala, dan warna titik untuk jenis kelamin burung, kita membutuhkan estetika lain yang bisa kita petakan ukuran tengkoraknya. Salah satu opsi adalah menggunakan ukuran titik-titik, menghasilkan visualisasi yang disebut bagan gelembung (Gambar 12.3 ).

Gambar 12.3: Panjang kepala versus massa tubuh selama 123 blue jays.Jenis kelamin burung ditunjukkan oleh warna, dan ukuran tengkorak burung berdasarkan ukuran simbol. Pengukuran panjang kepala termasuk panjang tagihan sementara pengukuran ukuran tengkorak tidak. Panjang kepala dan ukuran tengkorak cenderung berkorelasi, tetapi ada beberapa burung dengan tagihan luar biasa panjang atau pendek mengingat ukuran tengkoraknya. Sumber data: Keith Tarvin, Oberlin College
Bubble chart memiliki kelemahan yaitu mereka menunjukkan jenis variabel yang sama, variabel kuantitatif, dengan dua jenis skala yang berbeda, posisi dan ukuran. Ini membuatnya sulit untuk secara visual memastikan kekuatan asosiasi antara berbagai variabel. Selain itu, perbedaan antara nilai data yang dikodekan sebagai ukuran gelembung lebih sulit untuk dipahami daripada perbedaan antara nilai data yang dikodekan sebagai posisi. Karena bahkan gelembung terbesar harus agak kecil dibandingkan dengan ukuran angka total, perbedaan ukuran antara bahkan gelembung terbesar dan terkecil pun harus kecil. Akibatnya, perbedaan yang lebih kecil dalam nilai data akan sesuai dengan perbedaan ukuran yang sangat kecil yang hampir mustahil untuk dilihat. Dalam Gambar 12.3 , saya menggunakan pemetaan ukuran yang secara visual memperkuat perbedaan antara tengkorak terkecil (sekitar 28mm) dan tengkorak terbesar (sekitar 34mm), namun sulit untuk menentukan apa hubungan antara ukuran tengkorak dan massa tubuh atau panjang kepala.
Sebagai alternatif dari bagan gelembung, mungkin lebih baik untuk menunjukkan semua plot matriks sebar, di mana setiap plot individu menunjukkan dua dimensi data (Gambar 12.4 ).Gambar ini menunjukkan dengan jelas bahwa hubungan antara ukuran tengkorak dan massa tubuh sebanding untuk burung betina dan jantan kecuali bahwa burung betina cenderung agak lebih kecil. Namun, hal yang sama tidak berlaku untuk hubungan antara panjang kepala dan massa tubuh. Ada pemisahan yang jelas berdasarkan jenis kelamin.Burung jantan cenderung memiliki tagihan lebih lama dari burung betina, semuanya setara.

Gambar 12.4: Matriks plot pencetak semua-terhadap-semua, panjang kepala, massa tubuh, dan ukuran tengkorak, untuk 123 blue jay. Gambar ini menunjukkan data yang sama persis seperti Gambar 12.2 . Namun, karena kita lebih baik dalam menilai posisi daripada ukuran simbol, korelasi antara ukuran tengkorak dan dua variabel lainnya lebih mudah dilihat dalam plot sebar berpasangan daripada pada Gambar 12.2 . Sumber data: Keith Tarvin, Oberlin College
12.2 Correlograms
Ketika kita memiliki lebih dari tiga hingga empat variabel kuantitatif, matriks sebar semua-terhadap-semua dengan cepat menjadi sulit. Dalam hal ini, akan lebih berguna untuk mengukur jumlah hubungan antara pasangan variabel dan memvisualisasikan jumlah ini daripada data mentah. Salah satu cara umum untuk melakukan ini adalah menghitung koefisien korelasi . Koefisien korelasi r adalah angka antara -1 dan 1 yang mengukur sejauh mana dua variabel kovari. Nilai r= 0 berarti tidak ada hubungan apa pun, dan nilai 1 atau -1 menunjukkan hubungan sempurna. Tanda koefisien korelasi menunjukkan apakah variabel berkorelasi (nilai yang lebih besar dalam satu variabel bertepatan dengan nilai yang lebih besar di yang lain) atau anti - berkorelasi (nilai yang lebih besar dalam satu variabel bertepatan dengan nilai yang lebih kecil di yang lain). Untuk memberikan contoh-contoh visual dari apa yang tampak seperti kekuatan korelasi, pada Gambar 12.5 saya menunjukkan serangkaian poin yang dihasilkan secara acak yang sangat berbeda dalam tingkat di mana nilai x dan y berkorelasi.

Gambar 12.5: Contoh korelasi dengan besaran dan arah yang berbeda, dengan koefisien korelasi terkait r . Di kedua baris, korelasi dari kiri ke kanan berubah dari lemah ke kuat. Di baris atas korelasinya adalah positif (nilai yang lebih besar untuk satu kuantitas dikaitkan dengan nilai yang lebih besar untuk yang lain) dan di baris bawah mereka negatif (nilai yang lebih besar untuk satu kuantitas dikaitkan dengan nilai yang lebih kecil untuk yang lain). Dalam semua enam panel, set nilai x dan y adalah identik, tetapi pasangan antara nilai x dan y individu telah di-reshuffle untuk menghasilkan koefisien korelasi yang ditentukan.
Koefisien korelasi didefinisikan sebagai
\ [r = \ frac {\ sum_i (x_i - \ bar x) (y_i - \ bar y)} {\ sqrt {\ sum_i (x_i- \ bar x) ^ 2} \ sqrt {\ sum_i (y_i- \ bar y) ^ 2}}, \] di mana \ (x_i \) dan \ (y_i \) adalah dua set pengamatan dan \ (\ bar x \)dan \ (\ bar y \) adalah sarana sampel yang sesuai. Kita bisa melakukan sejumlah pengamatan dari rumus ini. Pertama, rumusnya simetris dalam \ (x_i \) dan \ (y_i \) , sehingga korelasi x dengan y sama dengan korelasi y dengan x .Kedua, nilai individual \ (x_i \) dan \ (y_i \) hanya memasukkan rumus dalam konteks perbedaan dengan rata-rata sampel masing-masing, jadi jika kita menggeser seluruh dataset dengan jumlah konstan, misalnya kita mengganti \ (x_i \ ) dengan \ (x_i '= x_i + C \) untuk beberapa konstanta \ (C \) , koefisien korelasi tetap tidak berubah. Ketiga, koefisien korelasi juga tetap tidak berubah jika kita menskala ulang data, \ (x_i '= C x_i \) , karena konstanta \ (C \) akan muncul baik dalam pembilang dan penyebut rumus dan karenanya dapat dibatalkan.
Visualisasi koefisien korelasi disebut dengan korelasi . Untuk menggambarkan penggunaan korelogram, kami akan mempertimbangkan kumpulan data lebih dari 200 fragmen kaca yang diperoleh selama kerja forensik. Untuk setiap pecahan gelas, kami memiliki pengukuran tentang komposisinya, dinyatakan sebagai persentase berat berbagai mineral oksida. Ada tujuh oksida berbeda untuk pengukuran yang kami lakukan, menghasilkan total 6 + 5 + 4 + 3 + 2 + 1 = 21 korelasi berpasangan. Kita dapat menampilkan 21 korelasi ini sekaligus sebagai matriks ubin berwarna, di mana setiap ubin mewakili satu koefisien korelasi (Gambar 12.6 ). Ini korelasiogram memungkinkan kita untuk dengan cepat memahami tren dalam data, seperti magnesium yang berkorelasi negatif dengan hampir semua oksida lainnya, dan bahwa aluminium dan barium memiliki korelasi positif yang kuat.

Gambar 12.6: Korelasi dalam kandungan mineral untuk 214 sampel fragmen kaca yang diperoleh selama pekerjaan forensik. Dataset berisi tujuh variabel yang mengukur jumlah magnesium (Mg), kalsium (Ca), besi (Fe), kalium (K), natrium (Na), aluminium (Al), dan barium (Ba) yang ditemukan di setiap pecahan gelas. Ubin berwarna mewakili korelasi antara pasangan variabel ini. Sumber data: B. Jerman
Salah satu kelemahan dari korelasiogram pada Gambar 12.6adalah bahwa korelasi rendah, yaitu korelasi dengan nilai absolut mendekati nol, tidak secara visual ditekan sebagaimana mestinya. Misalnya, magnesium (Mg) dan kalium (K) sama sekali tidak berkorelasi tetapi Gambar 12.6tidak segera menunjukkan ini. Untuk mengatasi keterbatasan ini, kita dapat menampilkan korelasi sebagai lingkaran berwarna dan skala ukuran lingkaran dengan nilai absolut dari koefisien korelasi (Gambar 12.6 ). Dengan cara ini, korelasi rendah ditekan dan korelasi tinggi menonjol lebih baik.

Gambar 12.7: Korelasi dalam kandungan mineral untuk sampel kaca forensik. Skala warna identik dengan Gambar 12.6 . Namun, sekarang besarnya setiap korelasi juga dikodekan dalam ukuran lingkaran berwarna.Pilihan ini secara visual mengurangi kasus dengan korelasi mendekati nol.Sumber data: B. Jerman
Semua korelasi memiliki satu kelemahan penting: Mereka cukup abstrak. Sementara mereka menunjukkan kepada kita pola penting dalam data, mereka juga menyembunyikan titik data yang mendasarinya dan dapat menyebabkan kita menarik kesimpulan yang salah. Itu selalu lebih baik untuk memvisualisasikan data mentah daripada abstrak, jumlah yang diturunkan yang telah dihitung darinya. Untungnya, kita sering dapat menemukan jalan tengah antara menunjukkan pola-pola penting dan menunjukkan data mentah dengan menerapkan teknik pengurangan dimensi.
12.3 Pengurangan dimensi
Pengurangan dimensi bergantung pada wawasan kunci bahwa sebagian besar dataset dimensi tinggi terdiri dari beberapa variabel berkorelasi yang menyampaikan informasi yang tumpang tindih. Dataset tersebut dapat dikurangi menjadi sejumlah kecil dimensi utama tanpa kehilangan banyak informasi penting. Sebagai contoh sederhana dan intuitif, pertimbangkan kumpulan data dari berbagai sifat fisik orang, termasuk jumlah seperti tinggi dan berat badan setiap orang, panjang lengan dan kaki, lingkar pinggang, pinggul, dan dada, dll. Kita dapat memahami segera bahwa semua jumlah ini akan berhubungan pertama dan terutama dengan ukuran keseluruhan setiap orang. Semua orang lain sederajat, orang yang lebih besar akan lebih tinggi, lebih berat, memiliki lengan dan kaki lebih panjang, dan lingkar pinggang, pinggul, dan dada yang lebih besar. Dimensi penting berikutnya adalah jenis kelamin seseorang.Pengukuran pria dan wanita secara substansial berbeda untuk orang dengan ukuran yang sebanding. Sebagai contoh, seorang wanita akan cenderung memiliki lingkar pinggul yang lebih tinggi daripada seorang pria, semuanya setara.
Ada banyak teknik untuk pengurangan dimensi. Saya akan membahas hanya satu teknik di sini, yang paling banyak digunakan, disebut analisis komponen utama (PCA). PCA memperkenalkan serangkaian variabel baru (disebut komponen utama, PC) dengan kombinasi linear dari variabel asli dalam data, yang distandarisasi menjadi nol rata-rata dan varian unit (lihat Gambar 12.8 untuk contoh mainan dalam dua dimensi). PC dipilih sedemikian rupa sehingga mereka tidak berkorelasi, dan mereka diperintahkan sedemikian rupa sehingga komponen pertama menangkap jumlah variasi terbesar yang mungkin dalam data, dan komponen selanjutnya menangkap semakin sedikit. Biasanya, fitur utama dalam data dapat dilihat hanya dari dua atau tiga PC pertama.

Gambar 12.8: Contoh analisis komponen utama (PC) dalam dua dimensi.(a) Data asli. Sebagai data contoh, saya menggunakan pengukuran panjang kepala dan ukuran tengkorak dari dataset blue jays. Burung betina dan jantan dibedakan berdasarkan warna, tetapi perbedaan ini tidak berpengaruh pada analisis PC. (B) Sebagai langkah pertama dalam PCA, kami skala nilai data asli ke nol rata-rata dan varians unit. Kami kemudian kami mendefinisikan variabel baru (komponen utama, PC) di sepanjang arah variasi maksimum dalam data. (c) Akhirnya, kami memproyeksikan data ke dalam koordinat baru. Secara matematis, proyeksi ini setara dengan rotasi titik data di sekitar titik asal. Dalam contoh 2D yang ditunjukkan di sini, titik data diputar searah jarum jam sebesar 45 derajat.
Ketika kami melakukan PCA, kami secara umum tertarik pada dua informasi: (i) komposisi PC dan (ii) lokasi masing-masing titik data dalam ruang komponen utama. Mari kita lihat dua bagian ini dalam analisis PC dari dataset kaca forensik.
Pertama, kita melihat komposisi komponen (Gambar 12.9 ). Di sini, kami hanya mempertimbangkan dua komponen pertama, PC 1 dan PC 2. Karena PC adalah kombinasi linear dari variabel asli (setelah standarisasi), kami dapat mewakili variabel asli sebagai panah yang menunjukkan sejauh mana mereka berkontribusi pada PC. Di sini, kita melihat bahwa barium dan natrium berkontribusi terutama untuk PC 1 dan tidak untuk PC 2, kalsium dan kalium berkontribusi terutama untuk PC 2 dan tidak ke PC 1, dan variabel lain berkontribusi dalam jumlah yang bervariasi untuk kedua komponen (Gambar 12.9 ). Panah memiliki panjang yang bervariasi karena ada lebih dari dua PC. Misalnya panah untuk besi sangat pendek karena memberikan kontribusi utama untuk PC tingkat tinggi (tidak ditampilkan).

Gambar 12.9: Komposisi dua komponen pertama dalam analisis komponen utama (PCA) dari dataset kaca forensik. Komponen satu (PC 1) terutama mengukur jumlah aluminium, barium, natrium, dan konten magnesium dalam pecahan kaca, sedangkan komponen dua (PC 2) terutama mengukur jumlah kalsium dan kandungan kalium, dan sampai batas tertentu jumlah aluminium dan magnesium.
Selanjutnya, kami memproyeksikan data asli ke ruang komponen utama (Gambar 12.10 ). Kami melihat pengelompokan yang jelas dari berbagai jenis pecahan kaca di plot ini. Fragmen dari lampu depan dan jendela jatuh ke wilayah yang digambarkan dengan jelas di plot PC, dengan sedikit outlier. Fragmen dari pecah dan dari wadah sedikit lebih tersebar, tetapi tetap berbeda dari headlamp dan fragmen jendela. Dengan membandingkan Gambar 12.10dengan Gambar 12.9 , kita dapat menyimpulkan bahwa sampel jendela cenderung memiliki kadar magnesium lebih tinggi dari rata-rata dan lebih rendah dari kadar barium, aluminium, dan natrium rata-rata, sedangkan yang sebaliknya berlaku untuk sampel headlamp.

Gambar 12.10: Komposisi masing-masing pecahan kaca yang divisualisasikan dalam ruang komponen utama yang didefinisikan dalam Gambar 12.9 . Kita melihat bahwa berbagai jenis kluster sampel kaca pada nilai karakteristik PC 1 dan 2. Secara khusus, lampu depan dicirikan oleh nilai PC 1 negatif sedangkan jendela cenderung memiliki nilai PC 1 positif.Perangkat makan dan wadah memiliki nilai PC 1 mendekati nol dan cenderung memiliki nilai PC 2 positif. Namun, ada beberapa pengecualian di mana fragmen kontainer memiliki nilai PC 1 negatif dan PC 2 negatif. Ini adalah fragmen yang komposisinya berbeda secara drastis dari semua fragmen lain yang dianalisis.
12.4 Data berpasangan
Kasus khusus data kuantitatif multivarian adalah data berpasangan: Data di mana terdapat dua pengukuran atau lebih dari kuantitas yang sama dalam kondisi yang sedikit berbeda. Contohnya termasuk dua pengukuran yang sebanding pada setiap subjek (misalnya, panjang lengan kanan dan kiri seseorang), ulangi pengukuran pada subjek yang sama pada titik waktu yang berbeda (misalnya, berat badan seseorang pada dua waktu yang berbeda sepanjang tahun), atau pengukuran pada dua mata pelajaran yang terkait erat (misalnya, ketinggian dua kembar identik). Untuk data berpasangan, masuk akal untuk mengasumsikan bahwa dua pengukuran milik pasangan lebih mirip satu sama lain daripada pengukuran milik pasangan lain. Dua anak kembar akan memiliki tinggi yang kira-kira sama tetapi tingginya akan berbeda dari anak kembar lainnya. Oleh karena itu, untuk data berpasangan, kita perlu memilih visualisasi yang menyoroti perbedaan antara pengukuran berpasangan.
Pilihan yang sangat baik dalam hal ini adalah sebaran plot sederhana di atas garis diagonal yang menandai x = y .Dalam plot seperti itu, jika satu-satunya perbedaan antara dua pengukuran dari setiap pasangan adalah noise acak, maka semua titik dalam sampel akan tersebar secara simetris di sekitar garis ini. Perbedaan sistematis antara pengukuran berpasangan, sebaliknya, akan terlihat dalam pergeseran sistematis data menunjuk ke atas atau ke bawah relatif terhadap diagonal. Sebagai contoh, perhatikan emisi karbon dioksida (CO 2 ) per orang, diukur untuk 166 negara baik pada tahun 1970 dan pada tahun 2010 (Gambar 12.11 ).Contoh ini menyoroti dua fitur umum dari data berpasangan.Pertama, sebagian besar titik relatif dekat dengan garis diagonal. Meskipun emisi CO 2 bervariasi pada hampir empat urutan besarnya di antara negara-negara, mereka cukup konsisten di setiap negara selama rentang waktu 40 tahun.Kedua, titik-titik tersebut secara sistematis bergeser ke atas relatif terhadap garis diagonal. Mayoritas negara telah melihat peningkatan emisi CO 2 selama 40 tahun yang dipertimbangkan.

Gambar 12.11: Emisi karbon dioksida (CO 2 ) per orang pada tahun 1970 dan 2010, untuk 166 negara. Setiap titik mewakili satu negara. Garis diagonal mewakili emisi CO 2 yang identik pada tahun 1970 dan 2010. Titik-titik tersebut secara sistematis bergeser ke atas relatif terhadap garis diagonal: Di sebagian besar negara, emisi lebih tinggi pada tahun 2010 dibandingkan tahun 1970. Sumber data: Pusat Analisis Informasi Karbon Dioksida
Plot pencar seperti Gambar 12.11 bekerja dengan baik ketika kita memiliki sejumlah besar titik data dan / atau tertarik pada penyimpangan sistematis seluruh data yang ditetapkan dari ekspektasi nol. Sebaliknya, jika kita hanya memiliki sedikit pengamatan dan terutama tertarik pada identitas masing-masing kasus, slopegraph mungkin merupakan pilihan yang lebih baik. Dalam slopegraph, kami menggambar pengukuran individu sebagai titik-titik yang disusun menjadi dua kolom dan menunjukkan pasangan dengan menghubungkan titik-titik yang berpasangan dengan sebuah garis. Kemiringan setiap garis menyoroti besarnya dan arah perubahan.Gambar 12.12 menggunakan pendekatan ini untuk menunjukkan sepuluh negara dengan perbedaan terbesar dalam emisi CO 2 per orang dari 2000 hingga 2010.

Gambar 12.12: Emisi karbon dioksida (CO 2 ) per orang pada tahun 2000 dan 2010, untuk sepuluh negara dengan perbedaan terbesar antara dua tahun ini. Sumber data: Pusat Analisis Informasi Karbon Dioksida
Slopegraphs memiliki satu keunggulan penting dibandingkan plot pencar: Slopegraph dapat digunakan untuk membandingkan lebih dari dua pengukuran sekaligus.Sebagai contoh, kita dapat memodifikasi Gambar 12.12 untuk menunjukkan emisi CO 2 pada tiga titik waktu, di sini tahun 2000, 2005, dan 2010 (Gambar 12.13 ). Pilihan ini menyoroti kedua negara dengan perubahan besar dalam emisi selama satu dekade penuh serta negara-negara seperti Qatar atau Trinidad dan Tobago yang ada perbedaan besar dalam tren yang terlihat untuk interval lima tahun pertama dan yang kedua.

Gambar 12.13: Emisi CO 2 per orang pada tahun 2000, 2005, dan 2010, untuk sepuluh negara dengan perbedaan terbesar antara tahun 2000 dan 2010. Sumber data: Pusat Analisis Informasi Karbon Dioksida
