Sayıların Ardındaki Şaşırtıcı Gerçekler:

Her gün veri, istatistik ve ortalamalarla çevrili bir dünyada yaşıyoruz. Haber başlıklarından pazar araştırmalarına kadar sayılar, kararlarımızı ve dünya görüşümüzü şekillendiriyor. Ancak bu rakamları genellikle sorgulamadan, olduğu gibi kabul ederiz. Peki ya yüzeyin altında daha derin, daha şaşırtıcı hikayeler yatıyorsa?
Veri analizi süreci, bir dedektifin ipuçlarını birleştirmesine benzer. Her veri seti, dikkatli bir gözün ortaya çıkarabileceği incelikler, tuzaklar ve beklenmedik gerçeklerle doludur. Basit bir ortalama bile yanıltıcı olabilir ve bazen en değerli bilgiler, eksik olan verilerde saklıdır. Bu makalede, istatistikçilerin veriye nasıl baktığını ortaya koyan ve sizi de bir veri dedektifi gibi düşünmeye teşvik edecek dört karşı sezgisel gerçeği inceleyeceğiz.
"Ortalama" Sandığınızdan Daha Karmaşıktır
Tüm arkadaşlarınızın boyunu ölçtüğünüzü hayal edin. Elinizde bir sürü sayı var, ama bu sayılar tek başlarına size grubun genel boyu hakkında pek bir şey söylemez. "Ortalama" veya "tipik" bir arkadaşınızın boyunu nasıl bulursunuz? İşte burada istatistikte "merkezi eğilim" dediğimiz kavram devreye girer. Ancak çoğumuzun "ortalama" dediği şeyin aslında en az üç farklı anlamı vardır:
Aritmetik Ortalama (Mean): Hepimizin bildiği klasik ortalama. Tüm değerleri toplayıp kişi sayısına bölerek bulunur.
Medyan (Median): Tüm boyları küçükten büyüğe sıraladığınızda tam ortada kalan değerdir.
Mod (Mode): Veri setinde en sık tekrar eden değerdir.
Peki bu neden önemli? Çünkü her bir "ortalama," verinin farklı bir hikayesini anlatır. Örneğin, grubunuzda profesyonel bir basketbolcu varsa, aritmetik ortalama herkesin boyunu olduğundan daha uzun gösterebilir. Bu durumda medyan, yani ortadaki değer, grubun "tipik" boyu hakkında daha doğru bir fikir verecektir. Sadece tek bir ortalamaya güvenmek, özellikle de veri setinde aşırı yüksek veya düşük değerler varsa, sizi yanlış yönlendirebilir. Bu yüzden, bir sonraki maaş "ortalaması" haberini gördüğünüzde, bunun medyan mı yoksa aritmetik ortalama mı olduğunu ve hikayeyi nasıl değiştirebileceğini sorgulayın.
Ancak, aradığımız şey bu grup içindeki tipik bir kişinin boyunun ne olabileceğini açıklamanın bir yoludur. İşte bu, merkezi eğilim kavramıdır.
Bazen Kategoriler de Sayı Gibi Değerlendirilebilir
İstatistikçiler verileri genellikle iki ana türe ayırır: "cinsiyet" veya "ikamet edilen şehir" gibi farklı ve ayrı grupları temsil eden kategorik değişkenler ve "yaş" veya "boy" gibi bir spektrum üzerinde yer alan sürekli değişkenler. Bu ayrım oldukça mantıklı görünür. Ancak istatistiğin ilginç yanlarından biri, bu kuralı bazen esnetmesidir.
Likert ölçeğini düşünün. "İstatistikten ne kadar keyif alıyorsunuz?" gibi bir soruya "çok keyif alıyorum" ile "hiç keyif almıyorum" arasında değişen yanıtlar verdiğinizi varsayalım. Teknik olarak bunlar ayrı kategorilerdir. Ancak analistler, bu kategorik yanıtları sanki sürekli bir ölçek üzerindeki noktalar gibi ele alırlar. Böylece bu yanıtlara toplama, ortalama alma gibi matematiksel işlemler uygulayabilirler.
Bu yaklaşımın bu kadar ilginç olmasının sebebi şudur: Bu pratik yöntem, araştırmacıların insan duyguları ve görüşleri gibi öznel konulara güçlü matematiksel araçlar uygulayarak daha derin analizler yapmasına olanak tanır. Bu sayede, bir ürün hakkındaki binlerce "iyi", "orta" ve "kötü" yorumu, o ürünün genel memnuniyetini gösteren tek bir sayısal puana dönüştürülebilir.
Eksik Verinin Arkasındaki Hikaye Önemlidir
Bir anket doldurduğunuzu ve bazı soruları atladığınızı düşünün. Belki soruyu görmediniz, cevaplamak istemediniz ya da sadece sıkıldınız. Analistler için bu durum "eksik veri" sorununu yaratır. İlk bakışta bu can sıkıcı bir boşluk gibi görünebilir, ancak bir istatistikçi için bu boşluk değerli bir ipucu olabilir. Verinin neden eksik olduğu, verinin kendisi kadar önemlidir. Üç temel eksik veri türü vardır.
Tamamen Rastgele Eksik (MCAR): Verinin eksik olması tamamen şansa bağlıdır. Katılımcı rastgele bir soruyu gözden kaçırmış olabilir.
Rastgele Eksik (MAR): Verinin eksik olma olasılığının, gözlemlenen diğer verilere göre tanımlanmış belirli gruplar içinde aynı olduğu, ancak gruplar arasında farklılık gösterebildiği durumdur.
Rastgele Olmayan Eksik: Verinin eksik olmasının sistematik bir nedeni vardır. Örneğin, çok sayıda katılımcı belirli bir soruyu atlıyorsa, bu o sorunun kafa karıştırıcı, fazla kişisel veya kötü tasarlandığına işaret edebilir.
Bu ayrım neden bu kadar etkilidir? Çünkü verinin neden eksik olduğunu anlamak, anketin veya veri toplama yönteminin kendisindeki kusurları ortaya çıkarabilir. Yani bir sonraki anketinizde bir sorunun sürekli boş bırakıldığını fark ederseniz, suçu katılımcıda değil, sorunun kendisinde aramanız gerekebilir.
Katılımcılarınız anketinizdeki bir maddeye farklı nedenlerle yanıt vermeyebilir. Anketinizdeki bir soruyu kaçırabilirler, belirli bir soruyu yanıtlamak istemeyebilirler ya da sıkılıp anketi doldurmayı bırakabilirler!
Bozuk Veriyi Her Zaman Silmek Zorunda Değilsiniz
Veri setlerini incelerken analistlerin ilk yaptığı işlerden biri "aralık dışı yanıtları" kontrol etmektir. Örneğin, bir katılımcının yaşını 512 olarak girdiğini veya 1'den 5'e kadar olan bir ölçekte 8 yanıtını verdiğini düşünün. Bunlar açıkça hatadır ve veri kalitesini bozar.
Geleneksel yaklaşım, bu hatalı verileri veya hatta katılımcının tüm yanıtlarını silmek olabilirdi. Ancak bu, değerli bilgilerin kaybolmasına neden olabilir. Modern veri bilimi, verilerin o kadar da kırılgan olmadığını gösteriyor. Veri bilimciler, eksik veya hatalı kayıtları çöpe atmak yerine, onları onarmak için gelişmiş araçlara sahiptir. İşte en yaygın iki yöntem:
Ortalama ile Değiştirme (Mean Replacement): Eksik veya hatalı bir değer, o değişkenin genel ortalaması ile değiştirilir. Bu yöntem, yalnızca rastgele eksik olan verinin, ilgili değişkenin %5'inden daha azını oluşturması durumunda kullanılır.
Çoklu Atama (Multiple Imputation): İstatistiksel bir program, kişinin diğer yanıtlarına ve ilgili değişkenlere bakarak eksik değer için akıllı bir tahminde bulunur ve o değeri atar. Bu yöntem, rastgele eksik olan verinin, değişkenin toplam yanıtlarının %5 ila %10'u arasında olduğu durumlar için tavsiye edilir.
Bu yaklaşımın şaşırtıcı yanı şudur: Veri setlerini onarma yeteneğimiz, olabildiğince fazla bilgiyi korumamızı sağlar. Bu, elinizdeki verinin potansiyelini en üst düzeye çıkararak daha az bilgi kaybıyla daha güvenilir sonuçlar elde etmenizi sağlar.
Rakamların Ötesine Bakın
Veri analizi, sadece sayıları hesaplamaktan çok daha fazlasıdır; eleştirel düşünme, öngörü ve incelik gerektiren bir sanattır. Gördüğümüz gibi, "ortalama" kelimesi göründüğünden daha karmaşıktır, kategoriler sayılara dönüşebilir ve eksik bir veri noktası bile kendi hikayesini anlatabilir. Yüzeydeki rakamlar her zaman hikayenin tamamını anlatmaz.
Bir dahaki sefere bir istatistikle karşılaştığınızda, bir an durup düşünün. Bariz rakamın ötesinde hangi gizli hikayeyi arayacaksınız?
Bloga dön