Kuram ve Uygulamada Eğitim Bilimleri • Educational Sciences: Theory & Practice • 14(2) • 969-979 © 2014 Eğitim Danışmanlığı ve Araştırmaları İletişim Hizmetleri Tic. Ltd. Şti. www.edam.com.tr/kuyeb DOI: 10.12738/estp.2014.3.2107 Ölçek Geliştirmede Geçerlik Kanıtları: Çapraz Geçerlik, Sınıflama ve Sıralama Geçerliği Uygulaması a Tülin ACAR Öz Literatürde geliştirilmiş pek çok ölçeğin faktör analizi teknikleri ile sınırlı kaldığı gözlenmiştir. Bu ölçeklerin istatistiksel yapı ve/veya psikolojik yapı geçerliği incelemelerinin yanı sıra çapraz geçerlik, sınıflama-sıralama geçerliği gibi geçerlik çalışmalarına da sıklıkla yer verilmesi gerekmektedir. Bu araştırmanın amacı ise geliştirilen paranormal inançlara ilişkin tutum ölçeğinin bölünmüş iki alt örnekleme göre çapraz geçerliğinin, aynı zamanda sınıflama-sıralama geçerliğinin sınanması ve sonuçlarının yorumlanmasında araştırmacılara rehberlik sağlamaktır. Ölçek geliştirme ile ilgili alanyazın incelendiğinde ölçeklerin çoğunun açımlayıcı faktör analizi sonuçlarına göre geliştirildiği görülmektedir. Geliştirilen ölçme araçlarının faktör yükleri, model veri uyum indeksleri, iç tutarlık güvenirlik katsayıları uygun olsa da farklı yöntemlerle geçerlik analizlerinin incelenmesi gerekmektedir. İncelenen yöntemde uygun çıkan parametre değerleri, farklı bir yöntemde uygun çıkmayabilir veya farklı ipuçları gösterebilmektedir. Dolayısıyla ölçek geliştiren araştırmacının, farklı yöntemlerle geçerlik kanıtlarını sürdürmesi gerekmektedir. Anahtar Kelimeler Çapraz Geçerlik, Çift Tutarlık İndeksi, Geçerlik, Geçerlik Kanıtları, Sınıflama-Sıralama Geçerliği. Eğitimde kullanılan ölçme araçlarının geçerliği, ölçme aracı geliştirme sürecinin en önemli konularından birisidir. Yaygın olarak geçerlik kavramı; ölçme aracının amacına hizmet ediyor olmasının bir ölçütüdür (Croker ve Algina, 2008; Downing ve Haladyna, 2006; Kane, 2006). Bir başka deyişle, beklenen yapı ile gözlenen yapının özdeşlik derecesi testin yapısal geçerliğidir (Baykal, 1994). Dolayısıyla bir ölçümün geçerliliği ölçme aracı ile ölçülmek istenen amaçla doğru orantılı olmaktadır. Bu nedenle geçerlilik, amaçtan bağımsız düşünülebilecek bir kavram değildir ve geçerlik için bir takım deliller toplanmaktadır. Ölçmenin amacına göre geçerlik yaklaşımı genel olarak üç grupta ele alınmaktadır. Bunlar sırasıyla kapsam, ölçüt ve yapı geçerliğidir (Brualdi, 1999; Erkuş, 2003; Hopkins, 1998). Kapsam geçerliği, test maddelerinin ölçülecek yapıyı temsil etmesiyle ilgilidir. Ölçüt dayanaklı geçerlikte test puanları ile ölçüt alınan bir başka testin puanları arasındaki ilişki incelenir. Yapı geçerliği ise test maddelerinin ilgilenilen kuramsal veya psikolojik yapıyı temsil etme derecesidir. Eğitimde kullanılan ölçme araçlarının, test maddelerinin dolayısıyla ölçümlerin geçerliği, yansızlığı ölçme alanının temel sorunlarından biridir. Bilindiği gibi, eğitimde ölçme uygulamalarının temel amaçlarından biri de bireyler ya da test maddeleri hakkında bilgi edinmektir. Bunun için hatalardan arınık ve geçerliği yüksek ölçme araçlarına/ sonuçlarına gereksinim duyulur. Ancak, geçerliği olumsuz yönde etkileyen faktörlerden biri de “yan- a Dr. Tülin ACAR Eğitimde Ölçme ve Değerlendirme alanında doktordur. Araştırma konuları arasında aşamalı doğrusal modelleme, maddenin farklı fonksiyonlaşması, testlerin psikometrik özellikleri, eğitim istatistiği, çok değişkenli istatistiksel analizler yer almaktadır. İletişim: Parantez Eğitim Araştırma Yayıncılık, Selanik Cad. 46/4 Kızılay, Çankaya, Ankara. Elektronik posta: [email protected] KURAM VE UYGULAMADA EĞİTİM BİLİMLERİ lı” maddelerdir (biased items) ki bir testte yanlı maddelerin yer alması, bu testin sonucuna göre yapılacak olan değerlendirmelerin güvenirliğini hiç şüphesiz düşürecektir. Maddelerin yansızlığı ise test kuramına göre bir takım psikometrik işlemle saptanmaktadır (Camilli ve Shepard, 1994; Holland ve Wainer, 1993; Millsap ve Everson, 1993; Raju ve Ellis, 2002; Zumbo, 1999). Stuck (1995), çalışmasında özellikle ölçme hataları ve madde yanlılığının yapı geçerliğini bozan faktörlerden olduğunu ve geçerlik sorununun bir yeterlik derecesi olduğunu ifade etmiş ve dolayısıyla yapı geçerliği kavramı yerine fizibilite geçerliği (construct feasibility) kavramını önermiştir. Messick (1995) eğitimsel ve psikolojik ölçmelerde geçerlik için altı tane ayırt edilebilir özellik vurgulamış ve bunları içerik (content), asli (substantive), yapısal (structural), genellenebilirlik (genaralizability), dış (external) ve sonucu olan (consequential) geçerlik olarak ifade etmiştir. Bu özelliklerin tamamı bir geçerlik çalışması için delil toplama verileri olarak değerlendirilmiştir. Ölçme aracının “yapı” geçerliğini belirlemek için Guilford’un da belirttiği gibi sıkça faktör analizine başvurulmaktadır (Croncbach ve Meehl, 1955). Bilindiği gibi faktör analizi ölçme aracında yer alan maddelere ilişkin gözlenen puanların korelasyonuna dayalı olarak bir gruplama yapmaktadır. Böylece ilişkili maddelerin ölçmeye yöneldiği yapı(lar) ortaya çıkarılabilmektedir. Ancak faktör analizi kendi içerisinde “açımlayıcı faktör analizi” ve “doğrulayıcı faktör analizi” olarak iki şekilde ele alınmaktadır (Pohlmann, 2004; Stapleton, 1997). Madde puanlarına ilişkin korelasyona dayalı gruplamalar “açımlayıcı faktör analizi” olarak sınıflandırılmaktadır. Bu nedenle “açımlayıcı faktör analizi” ile ortaya konmaya çalışılan “yapı”, bazı kaynaklarda “istatistiksel yapı (statistical constructs)” olarak da adlandırılmaktadır (Knight, 2000; Pohlmann, 2004; Stapleton, 1997). Doğrulayıcı faktör analizinde ise maddelerin puanlarından daha çok kurama dayalı madde-yapı ilişkileri test edilmektedir. Bu nedenle doğrulayıcı faktör analizinde ele alınan yapı, “psikolojik yapı (psychological construct)” olarak da adlandırılmaktadır (Knight, 2000; Pohlmann, 2004). Yapı geçerliliği, faktoriyel geçerlik ya da sadece geçerlik kavramlarını 60 yıl önce ilk kez ifade eden Guilford, “Bir test istenen, beklenen yapıyı ölçüyor mu?” sorusuna verilen cevabın bir tür geçerlik sorunu olduğunu ve bu geçerlik sorununun da faktör analizi yöntemi ile çözülebileceğini ifade etmiştir (Stapleton, 1997). Ancak, günümüzde geçerlik kanıtları, ölçütler arası korelasyon analizleri, iç 970 tutarlık, güvenirlik katsayıları, ayırt edici geçerlik (distinguish validity), çapraz geçerlik, sınıflama geçerliği, sıralama geçerliği gibi kavramlarla da incelenmektedir. Araştırmanın Amacı ve Önemi Literatürde geliştirilmiş pek çok ölçeğin faktör analizi teknikleri ile sınırlı kaldığı gözlenmiştir. Bu ölçeklerin istatistiksel yapı ve/veya psikolojik yapı geçerliği incelemelerinin yanı sıra çapraz geçerlik, sınıflama-sıralama geçerliği gibi geçerlik çalışmalarına da sıklıkla yer verilmesi gerekmektedir. Bu araştırmanın amacı ise geliştirilen paranormal inançlara ilişkin tutum ölçeğinin bölünmüş iki alt örnekleme göre çapraz geçerliğinin ve aynı zamanda sınıflama-sıralama geçerliğinin sınanması ve sonuçlarının yorumlanmasında araştırmacılara rehberlik sağlamaktır. Yöntem Çalışma Grubu Tutumların ve inançların netleşmesi 18-21 yaşları arasındadır (Hökelekli, 1998, s. 280). Bu nedenle araştırmanın çalışma grubunu 18 yaş üzerinde bulunan toplam 947 kişi oluşturmaktadır. Veri Toplama Aracı Veri toplama aracı olarak beşli Likert tipi ölçeklenen toplam 23 maddelik paranormal inançlara ilişkin tutumları ölçmek amacıyla geliştirilen nihai form kullanılmıştır. Ölçeğin geliştirilme sürecinde 70 maddelik madde havuzu, tutum ölçeği geliştirme ilkelerine (bkz. Tezbaşaran, 1997) göre hazırlanmış ve 100 kişilik bir gruba uygulanmıştır. Bu uygulama sonucunda alt-üst grup ortalamaları arasındaki farka bakılmış ve farkın manidarlığı t-testi ile sınanmıştır. Yapı geçerliği için açımlayıcı faktör analizi; maddelerin iç tutarlılığı için Cronbach Alfa katsayısı ve madde-toplam korelasyonları değerlendirilmiş ve nihai form oluşturulmuştur. İkinci aşamada nihai form 947 kişiye uygulanmış ve paranormal inanca ilişkin tutum özelliği örtük değişken; ölçek maddeleri gözlenen değişken olmak üzere doğrulayıcı faktör analizi işlemine tabi tutularak maddelerin yapıyı temsil etme düzeyine bakılmıştır. Maddelerin psikometrik özellikleri ve yapıya ilişkin sonuçlar, araştırmacının “Paranormal İnançlara İlişkin Tutumları Ölçebilme Çabası” isimli çalışmasında ayrıntılı olarak yer verilmiş olup bu araştırmanın amacı gereği ayrıntılar tekrarlanmamıştır. ACAR / Ölçek Geliştirmede Geçerlik Kanıtları: Çapraz Geçerlik, Sınıflama ve Sıralama Geçerliği Uygulaması Veri Çözümleme Teknikleri Set the Covariances Free Çapraz geçerlik; aynı popülasyondan çekilen iki ya da daha fazla random örneklemde modelin yeterliğinin değişmez olduğunun araştırılmasıdır. Dolayısıyla bu çalışmada, LISREL paket programının çoklu grup (multiple group) özelliği, ölçülen psikolojik yapının çapraz geçerliğinin olup olmadığını değerlendirmek için kullanılmıştır. Set the Error Variances Free Çapraz geçerlik için yokluk hipotezi iki örneklem arasında ölçme modeli parametrelerinin (faktör yükleri, faktör varyansları, faktör kovaryansları ve ölçme hatası varyansları) özdeş (değişmez) olduğunu ifade etmektedir. Bu hipotezin testine ilişkin SIMPLIS betik aşağıda gösterilmiştir. Group 1: Original Sample Raw Data from File sample1.PSF Covariance Matrix from File sample1.COV Latent Variables: Paranormal Relationships: M1 - M23 = Paranormal Group 2: Cross Validation Sample Raw Data from File sample2.PSF Covariance Matrix from File sample2.COV Path Diagram End of Problem Alternatif hipotez ölçme modelinin ise en azından iki parametresinin iki örneklem arasında aynı olmadığını ifade etmektedir. Bu hipotezin testine ilişkin SIMPLIS betik: Group 1: Original Sample Raw Data from File sample1.PSF Covariance Matrix from File sample1.COV Latent Variables: Paranormal Relationships: M1 - M23 = Paranormal Group 2: Cross Validation Sample Raw Data from File sample2.PSF Covariance Matrix from File sample2.COV Relationships: M1 - M23 = Paranormal Set the Variances Free Path Diagram End of Problem İkinci örneklem için Set komutları, faktör varyans, covaryans ve ölçme hatası varyanslarının iki örneklem arasında farklı olduğunu belirtmektedir. Sınıflama ve sıralama geçerliği için Erkuş’un (2003), Çift-Tutarlılık İndeksi olarak adlandırılan indeksi hesaplanmıştır. İndeksin geliştirilme yöntemi; test maddelerinin tekler-çiftler şeklinde iki yarıya ayrılıp iki yarıda her bireyin toplam puanlarının bulunmasına, bu toplam puanların büyükten küçüğe doğru sıralanmasından sonra her iki yarıda alt ve üst %27’lik grupların arasındaki uyuma bakılmasına dayanmaktadır. Çift-tutarlılık indeksi; eğer test tutarlı bir sınıflama yapıyorsa (bir anlamda tutarlı ayırt ediyorsa), testin ilk yarısında üst grupta sınıflanan bireylerin ikinci yarıda da üst grupta; ilk yarıda alt grupta sınıflanan bireylerin ikinci yarıda da alt grupta sınıflanmasının beklenmesi mantığına dayanmaktadır. Testin her iki yarısındaki alt ve üst %27’lik gruplardaki frekans farklarıyla, 0.00 ile 1.00 arasında değerler alan indekse ulaşılmaktadır. İndeks değeri 0.00’a yaklaştığında tutarsız sınıflamayı, 1.00’e yaklaştığında da tutarlı sınıflamayı ifade etmektedir. Bulgular Çapraz Geçerliğe İlişkin Bulgular 947 kişilik örneklemden 23 maddelik ölçeğin Alfa iç tutarlılık katsayısı 0.824 olarak bulunmuştur. İki yarı tutarlılığı (ilk on iki madde ve son on bir maddeden oluşan formlar arasındaki tutarlık) 0.803 ve Gutman iki yarı tutarlık katsayısı 0.794 ve tek ve çift numaralı maddelerden oluşan formlar arasındaki korelasyon 0.656 olarak hesaplanmıştır. Cevaplayıcıların ölçek maddelerine verdiği tepkilerin kararlılık ve tutarlılık gösterdiği söylenebilir. Random olarak ikiye bölünen verilerden birinci örneklemin Cronbach Alfa iç tutarlık katsayısı 0,817; ikinci örneklemin 0,830 olarak hesaplanmıştır. Dolayısıyla, her iki alt örneklem verisi için Alfa iç tutarlık katsayıları birbirine çok yakın bulunmuştur. İki ayrı alt örneklemin ölçme modelinin çapraz geçerliğini değerlendirmek (yokluk ve alternatif hipotezlerini test etmek) için ki-kare fark testi kullanılmıştır. Ki-kare fark testi sadece yokluk ve alternatif hipotezleri altında ölçme modellerinin uyum iyiliği 971 KURAM VE UYGULAMADA EĞİTİM BİLİMLERİ ki-kare testleri arasındaki farktır. Serbestlik derecesi sadece yokluk ve alternatif hipotezler altındaki ölçme modelleri serbestlik dereceleri arasındaki farktır. Örneklemlerden elde edilen ki-kare fark testi sonuçları Tablo 1’de gösterilmiştir. Ki-kare fark testine ilişkin hesaplanan 0.299 ve 0.499 anlamlılık düzeylerinin iki örneklem arasında ölçme modeli parametrelerinin (faktör yükleri, faktör varyansları, faktör kovaryansları ve ölçme hatası varyansları) değişmez olduğunu göstermektedir. Diğer bir deyişle, ölçek maddeleri için ölçme modelinin çapraz geçerliği, iki örneklemde de desteklenmektedir. Yokluk hipotezine ilişkin ölçek maddelerinin standartlaştırılmış faktör yüklerine ilişkin yol (path) grafiği Ek 1’de ve alternatif hipoteze ilişkin birinci örneklemin ölçek maddelerinin standartlaştırılmış faktör yüklerine ilişkin yol grafiği Ek 2’de; ikinci örnekleme ilişkin yol grafiği ise Ek 3’te gösterilmiştir. Birinci örneklemin benzerlik oranı ki-kare istatistiği X2(506)=1807.26, p<0.01, kök ortalama kare yaklaşım hatası (RMSEA)= 0.091 ve ikinci örneklemin benzerlik oranı ki-kare istatistiği X2(483)=1781.21, p<0.01, kök ortalama kare yaklaşım hatası (RMSEA)= 0.093 olarak hesaplanmıştır. Her iki örneklemin standartlaştırılmış ortalama hataların karekökü (S-RMR)=0.07; karşılaştırmalı uyum indeksi(CFI)= 0.88; uyum iyiliği indeksi (GFI)= 0.82; normlanmış uyum indeksi (NFI)= 0.84; göreli uyum indeksi(RFI)= 0.84 olarak belirlenmiştir. Doğrulayıcı faktör analizi sonucunda ölçeğin tek faktörlü yapısının kabul edilebilir ve geçerli sonuçlar verdiği söylenebilir. Sınıflama ve Sıralama Geçerliğine İlişkin Bulgular 23 maddelik ölçek tek ve çift maddeler olmak üzere iki yarıya bölündükten sonra bu yarılardan bireylerin ölçek maddelerine ilişkin toplam puanları elde edilmiştir. Her iki yarı için bireyler toplam puana göre sıralatılmıştır. Sıralanmış verilerin en yüksek puanından başlayarak %27 oranında bir grup seçilmiş ve bu grup üst grup olarak adlandırılmıştır. Yine sıralanmış verinin en düşük puanından başlayarak %27 oranında grup seçilmiş ve bu grup alt grup olarak adlandırılmıştır. Dolayısıyla tek numaralı maddelerden oluşan formdan alt-üst gruplarındaki bireylerle ve çift numaralı maddelerden oluşan formdan alt-üst gruplarındaki bireylerle işlemlere devam edilmiştir. Bundan sonraki işlemlerde bireylerin puanlarıyla ise ilgilenilmemiştir. Çift tutarlık hesaplama formülüne göre %27’lik orana göre hem alt hem de üst gruplardaki birey sayısı 256’dır. Alt gruptaki bireylerin hem tek hem de çift numaralı formlarında ortak yer alan kişi sayısı 72; üst gruptaki bireylerin hem tek hem de çift numaralı formlarında ortak yer alan kişi sayısı 160’dır. Hesaplama formülüne göre elde edilen frekanslar yerlerine konduğunda ÇT= 1- [((256-160)+(256-72))/512] = 0.45 olarak hesaplamıştır. 0.00 ile 1.00 arasında değişen indekse göre bu çalışmada 0.45 olarak bulunan sınıflama ve sıralama geçerliği için orta düzeyde olduğu söylenebilir. Tartışma Ölçek geliştirme ile ilgili alanyazın incelendiğinde ölçeklerin çoğunun açımlayıcı faktör analizi sonuçlarına göre geliştirildiği görülmektedir. Dahası, birçok ölçek yalnızca bir kez kullanılmış ve geliştirilme amacına hizmet etmediği görülmüştür. Adeta bir ölçek çöplüğünden bahsedilebilir. Ölçek geliştirmenin bir süreç olduğu ve bu süreç içerisinde maddelerin yeniden düzenlenmesi, hesaplanan faktöriyel istatistiklerin yenilenmesi, farklı örneklemlerde test edilmesi gereklidir. Ölçek geliştirme sürecinde incelenen yapı (örtük özellik) çoğu kez bir makale çalışmasında nihayetlenmektedir. Değişen ve gelişen çağımızda artık bu tür çalışmalar, kuşkusuz bir makalede değil birkaç makalede ele alınmalıdır. Geliştirilen ölçme araçlarının faktör yükleri, model veri uyum indeksleri, iç tutarlık güvenirlik katsayıları uygun olsa da farklı yöntemlerle geçerlik analizlerinin incelenmesi gerekmektedir. İncelenen yöntemde uygun çıkan parametre değerleri, farklı bir yöntemde uygun çıkmayabilmekte veya farklı ipuçları gösterebilmektedir. Dolayısıyla ölçek geliştiren araştırmacının farklı yöntemlerle geçerlik kanıtlarını sürdürmesi gerekmektedir. Tablo 1. Ki-kare Farkı Testi Sonuçları Hipotez En küçük uyum fonksiyonu ki-kare (Minimum Fit Normal Teori ağırlıklı en küçük kareler ki-kare (Normal Function Chi-Square) Theory Weighted Least Squares Chi-Square) Değeri Serbestlik derecesi Değeri Serbestlik derecesi Eşit 1807,26 506 2486,96 506 Eşit değil 1781,21 483 2464,47 483 26,05 23 22,49 23 0,490 Fark 972 Anlamlılık düzeyi 0,299 Anlamlılık düzeyi Educational Sciences: Theory & Practice • 14(2) • 973-976 © 2014 Educational Consultancy and Research Center www.edam.com.tr/estp DOI: 10.12738/estp.2014.3.2107 Validity Evidence in Scale Development: The Application of Cross Validation and Classification-Sequencing Validation a Tülin ACAR Abstract In literature, it has been observed that many enhanced criteria are limited by factor analysis techniques. Besides examinations of statistical structure and/or psychological structure, such validity studies as cross validation and classification-sequencing studies should be performed frequently. The purpose of this study is to examine cross validation and sequencing-classification validation at the same time with regard to two sub-samplings from an attitude scale concerning paranormal belief developed to guide researchers in interpreting its results. When the literature regarding scale development is taken into account, most of the scales have been developed in accordance with exploratory factor analysis. Even if the factor loads, model data conformity index, and the internal consistency reliability coefficients of the measuring devices are proper, the validity of the analysis should be examined through different methods. Parameter values which test as appropriate in the examined method may be found to be inappropriate or have different clues from other analyses. Therefore, the researcher’s scale development should follow validity evidences through different methods. Key Words Classification and Sequencing Validation, Cross Validation, Double Consistency Index. The validity of measuring devices used in education is one of the most important topics of the measuring device development process. Validity concept is a criterion for the fact that it serves as a measuring device (Croker & Algina, 2008; Downing & Haladyna, 2006; Kane, 2006). In other words, identifying the degree of an expected structure and of an observed structure is the structural validity of a test (Baykal, 1994). Thus, the validity of a measurement is directly proportionate to the purpose being measured by the device. Therefore, validity is not a concept to be considered independent of purpose and therefore a set of evidences should be collected. Validity approach according to the purpose of measurement is generally discussed in 3 groups: content, criteria and structural validity (Brualdi, 1999; Erkuş, 2003; Hopkins, 1998). Content validity is related to the fact that the items to be tested represent the structure to be measured. In criterion supported validity, the relationship between points from one test and points from another test are taken as criteria to be examined. Structural validity is the degree to which significant organizational or psychological structures are represented. The validity of measuring devices, test items, and accordingly the measurements used in education is one of the basic problems with the impartiality of a Tülin ACAR, Ph.D., is an Educational Measurement and Evaluation specialist. Research interests include hierarchical linear models, differential item functioning, psychometric properties of tests, educational statistics, and multivariate statistical analysis. Correspondence: Parantez Education, Research Publisher, Selanik Street No: 46/4 Kızılay-Çankaya, Ankara, Turkey. Email: [email protected] EDUCATIONAL SCIENCES: THEORY & PRACTICE measurement areas. As is known, one of the primary purposes of measurement applications in education is to obtain information about individuals or test items. Therefore, flawless measurement devices/ results are required. The validity of a measurement devices’ results should be high. However, one of the factors which affect validity negatively is a “biased” item. The fact that a test includes biased items will undoubtedly destroy an evaluations’ credibility and limit its ability to be carried out in accordance with the results of the test. The impartiality of items is detected through a set of psychometric procedures in accordance with the test theory (Camilli & Shepard, 1994; Holland & Wainer, 1993; Millsap & Everson, 1993; Raju & Ellis, 2002; Zumbo, 1999). Stuck (1995), in his study, proposed that especially both measurement mistakes and biased items are among the factors which destroy a structure’s validity. Validity problem is a degree of sufficiency, therefore he proposed feasibility validity instead of construct feasibility. According to Messick (1995), in educational and psychological measurements, six distinguishable features were emphasized for validity: content, substance, structure, ability to generalize, externalization and consequence validity. All these features have been evaluated as evidence for collecting information to validate a study. In order to identify the “construct” validity of a measurement device, factor analysis is applied for a validity study (Croncbach & Meehl, 1955). As is known, grouping dependent on the correlation of the points observed is carried out. This grouping is related to the items within the factor analysis measuring device. Thus, structure(s) in which related items gravitate to measuring may come into being. However, factor analysis is discussed as “exploratory factor analysis” and “confirmatory factor analysis” in itself (Pohlmann, 2004; Stapleton, 1997) Groupings dependent on the correlation concerning the scoring of items are classified as “exploratory factor analysis.” Therefore, the constructs to be put forth together with “exploratory factor analysis” is also called “statistical constructs” in some sources (Knight, 2000; Pohlmann, 2004; Stapleton, 1997). In confirmatory factor analysis, item-construct relations based on theory are tested instead of the scores of the items. Thus, in confirmatory factor analysis, the construct to be approached is also called a “psychological construct” (Knight, 2000; Pohlmann, 2004). 974 Guilford, who termed construct validity, factorial validity or validity concepts for the first time 60 years ago stated that the answer to the question: “Does a test measure a desired expected construct?” is a type of validity problem and this validity problem can be solved through the factor analysis method (Stapleton, 1997). Today, however, concepts such as validity proofs, correlation between measurements, internal consistency, reliability coefficient, validity distinction, cross validation, classification validity, and sequencing validity are examined. Purpose and Importance of Research In literature, it has been observed that many enhanced criteria are limited to factor analysis techniques. Besides the examination of statistical and/or psychological structures, validity studies such as cross validation and classificationsequencing studies should be frequently included. The purpose of this study is to examine cross validation and sequencing-classification validity at the same time with regard to two sub-samplings from an attitude scale concerning paranormal belief which was developed in order to guide researchers in interpreting the results. Method Study Group The revelation of attitudes and beliefs occurs between the ages of 18-21 (Hökelekli, 1998, p. 280). The study group of this research consists of 947 people above the age of 18. Data Collection Tool For a data collection tool, the final norm tool which was developed in order to measure attitudes concerning paranormal beliefs has been used. This tool consists of 23 items. The final form has been scaled according to the quinary Likert type. In the development process of the scale, a pool attitude scale consisting of 70 items was prepared according to the development principles (see Tezbaşaran, 1997) and this was then applied to a group of 100 people. As a result of this application the difference between the sub-group and superior group averages and the significance of these differences was determined by the t test. For construct validity, exploratory factor analysis used the Cronbach alpha coefficient, and the total material correlations for the internal consistency of materials were ACAR / Validity Evidence in Scale Development: The Application of Cross Validation and Classification-Sequencing Validation evaluated. The final form has been constructed. In the second phase, the final form was applied to 947 people and the attitude features of people’s paranormal beliefs were subjected to exploratory factor analysis. The representation levels of latent variable were also evaluated. The psychometric features and results concerning structure have been included in the researcher’s study which is called “Efforts on Measuring Attitudes Regarding Paranormal Beliefs.” Data Analysis Techniques Cross validation is the investigation of the fact that the competency of a model in two or more random samples taken from the same population is invariable. Thus, in this study, multiple group features of the LISREL package program have been used to evaluate whether a measured psychological structure has cross validation. The non-existence hypothesis for cross validation states that the measurement model parameters (factor loads, factor variances, factor covariances and measuring error variances) between two samples need to be identical ( invariable). Set instructions for the second sample indicates that factor variance, co-variance and measuring error variances are different between two samples. For classification and sequencing validity, the Double Consistency Index from Erkuş (2003) was used for calculations. Development of validity using this method is as follows: the test materials are separated into two sides as single and double. In the two sides, the total points for each individual sample are contained. These score totals are arranged in order from highest to lowest value. After that, the match between sub-groups and superior groups in both sides is evaluated to be 27%. In the event that the test carries out a consistent classification (in other words, it distinguishes consistently), use of the double consistency index depends on the fact that individuals classified in the superior group from the first half of the test stay in that group for the second half; and that individuals classified in the sub-group from the first half of the test stay in the sub-group for the second half. In both halves of the test, through frequency differences in superior and sub groups (27%), an index increase in value of 0.00 and 1.00 was achieved. When an index value draws close to 0.00, it states inconsistent classification and when it draws close to 1.00 it states consistent classification. Results Findings Concerning Cross Validation The Alpha internal consistency coefficient for the 23item scale sampled from 947 people was calculated at 0.824. Split-half consistency (consistency between the forms consisting of the first twelve and the last eleven items) has been calculated at 0.803 and the Gutlam split-half consistency coefficient has been calculated at 0.656 and the correlation between the forms consisting of single and even numbered items has been calculated at 0.656. It may be said that the responses to the scale item show consistency and determination. The Cronbach Alpha internal consistency coefficient of the first sample separated at random was calculated at .817. The Cronbach Alpha consistency coefficient of the second sample was calculated at .830. Thus, the data from both samples were found to have similar internal consistency coefficients. In order to evaluate the cross validity of two separate samples’ measuring model, the chi-square difference test was used. The Chi square difference test measures the difference between conformity of the chi square tests for the measuring models only under the non-existence and alternative hypotheses. The degree of freedom is the difference between the measuring model’s degree of freedom only under the nonexistence and alternative hypotheses. Significance levels of 0.299 and 0.499 were calculated respectively for the chi square difference test and the measuring model parameters (factor loads, factor variances, factor co-variance and measuring error variances). This shows that the levels are invariable. In other words, cross validity of the measuring model for scale item is supported in both samples. The resemblance rate and chi square statistical equation for the first sample is X2(506)=1807.26, p<0.01, where the root mean square error approach(RMSEA) = 0.091. The resemblance rate and chi square statistical equation for the second sample is X2(483)=1781.21, p<0.01, where the root mean square error approach (RMSEA) = 0.093. In both samples, the standardized root mean square residual(S-RMR) = 0.07; the comparative fit index (CFI)= 0.88, the goodness of fit index ( GFI)= 0.82, the normed fit index (NFI)= 0.84, and the relative fit index (RFI)= 0.84. It can be stated that, as a result of confirmatory factor analysis, the single-factor structure of the scale provides acceptable and valid results. 975 EDUCATIONAL SCIENCES: THEORY & PRACTICE Findings regarding Classification and Sequencing Validity After the scale with 23 items is divided into two halves, the total score for individuals concerning the scale items is obtained. Individuals are listed according to their score totals for both halves. A group rate of 27% was chosen by beginning from the highest point listed in descending order. This first group is called the superior group. Then, proceeding down the list, individuals are formed into subgroups consisting of odd numbers. Superior groups are formed consisting of even numbers and the individuals are placed into sub-groups and superior groups. In subsequent proceedings, the points of individuals are no longer taken into account. According to the double consistency calculation formula with regard to the rate of 27% the number of individuals in the sub-groups and superior groups is 256. The number of people taking place in both odd and even numbered forms in the sub-groups is 72. The number of people taking place in both odd and even numbered forms in the superior group is 160. According to the calculation formula, the obtained frequencies are calculated at 0.45. It can be stated that according to the index varying between 0.00 and 1.00, the sequencing-classification validity of 0.45 can be considered middle level. Discussion When the literature regarding scale development is taken into account, most of the scales have been developed in accordance with exploratory factor analysis. Moreover, many scales have been used only once, for the development of purpose. To summarize, what is left turns to scale rubbish. Scale developing is a process, and in this process it is required that items are regulated again, that calculated factorial statistics are renewed, and that different samples are tested. In the scale development process, the generally examined structure (an implicit feature) is finalized in the article study. Undoubtedly, these kinds of studies should be discussed in more than one article. Even if the factor loads, the model data conformity index, and the internal consistency reliability coefficients of measuring devices are proper, validity analysis should be examined through different methods. Parameter values detected appropriate via the examined method may be found to be inappropriate or to have different clues. Therefore, a researcher who is developing a scale should follow validity evidences through many different methods. 976 References/Kaynakça Baykal, A. (1994). Davranışların ölçülmesinde yapısal geçerlilik göstergesi. Türk Psikoloji Dergisi, 33, 45-50. Brualdi, A. (1999). Traditional and modern concepts of validity. Retrieved from http://eric.ed.gov/PDFS/ ED435714.pdf Camilli, G., & Shepard, L. A. (1994). Methods for identifying biased test items. Newbury Park, CA: Sage. Crocker, L., & Algina, J. (2008). Introduction to classical and modern test theory. Mason, OH: Cengage Learning. Cronbach, L. J., & Meehl, P. E. (1955). Construct validity in psychological tests. Psychological Bulletin, 52, 281-302. Downing, S. M., & Haladyna, T. M. (2006). Handbook of test development. Mahwah, NJ: Lawrence Erlbaum. Erkuş, A. (2003). Psikometri üzerine yazılar. Ankara: Türk Psikologlar Derneği Yayınları. Holland, P. W., & Wainer, H. (1993). Differential item functioning. Hillsdale, NJ: Lawrence Erlbaum Associates. Hopkins, K. D. (1998). Educational and psychological measurement and evaluation (8th ed.). Boston: Allyn and Bacon. Hökelekli, H. (1998). Din psikolojisi. Ankara: Türkiye Diyanet Vakfı Yayınları. Kane, M. T. (2006). Validation. In R. L. Brennan (Ed.), Educational measurement (4th ed., pp. 17-64). Westport, CT: Praeger. Knight, J. L. (2000, November). Toward reflective judgment in exploratory factor analysis decisions: Determining the extraction method and number of factors to retain. Paper presented at the Annual Meeting of the Mid-South Educational research Associations, Bowling Green, KY. (ERIC Document No. ED 449224) Messick, S. (1995). Validity of psychological assessment: validation of inferences from persons’ responses and performances as scientific inquiry into score meaning. American Psychologist, 50(9), 741-749. Millsap, R. E., & Everson, H. T. (1993). Statistical approaches for assessing measurement bias. Applied Psychological Measurement, 17, 297-334. Pohlmann, J. T. (2004). Use and interpretation of faktor analysis in the journal of educational research: 1992-2002. ProQuest Psychology Journals, 98(1), 14-22. Raju, N. S., & Ellis, B. B. (2002). Differential item and test functioning. In F. Drasgow & N. Schmitt (Eds.), Measuring and analyzing behavior in organizations (pp. 156-188). San Francisco, CA: Jossey-Bass. Stapleton, C. D. (1997). Basic concepts and procedures of confirmatory factor analysis. Educational Research Association, Reports-Evaluative (142), Speeches / Meeting Papers (150). Stuck, I. (1995, April). Heresies of the new unified notion of test validity. Paper presented at the Meeting of the National Council on Measurement in Education, San Francisco, CA. Tezbaşaran, A. A. (1997). Likert tipi ölçek geliştirme kılavuzu. Ankara: Türk Psikologlar Derneği. Zumbo, B. D. (1999). A handbook on the theory and methods of Differential Item Functioning (DIF): Logistic regression modeling as a unitary framework for Binary and Likert-Type (Ordinal) item scores. Retrieved from http:// educ.ubc.ca/faculty/zumbo/DIF/handbook.pdf ACAR / Validity Evidence in Scale Development: The Application of Cross Validation and Classification-Sequencing Validation Ek 1. Yokluk Hipotezine İlişkin Modelin Yol Grafiği 977 EDUCATIONAL SCIENCES: THEORY & PRACTICE Ek 2. Birinci Örneklem için Alternatif Hipoteze İlişkin Modelin Yol Grafiği 978 ACAR / Validity Evidence in Scale Development: The Application of Cross Validation and Classification-Sequencing Validation Ek 3. İkinci Örneklem için Alternatif Hipoteze İlişkin Modelin Yol Grafiği 979