Testování a zkoušky ve školství: jak fungují a co způsobují
2020
Rok co rok se tisíce žáků účastní státní maturitní zkoušky a rok co rok nastane kontroverze okolo jedné nebo více zadaných úloh. V loňském roce dokonce jeden ze studentů uspěl u soudu se stížností na nedostatečně přesné zadání úlohy v maturitním testu. Problémy v testování jsou však mnohem hlubší. Text představuje širší záběr témat spojených s ověřováním znalostí a dovedností ve vzdělávání. Cílem je zviditelnit problém testování v jeho šíři. Co všechno je dobré zvážit předtím, než rozesadíme děti do lavic a necháme hroty tužek v záznamových arších rozhodnout, jaké je jejich místo ve světě? Musíme se ptát po účelu testování, všímat si vedlejších dopadů testování a využívat testy jako nástroj zpětné vazby. Česko v prvé řadě potřebuje vytvořit dostatečné odborné kapacity v oblasti ověřování výsledků vzdělávání a kriticky posoudit již používané testy.
Autor: Jiří Münich
Délka čtení: 8 minut
Rok co rok se tisíce žáků účastní státní maturitní zkoušky a rok co rok nastane kontroverze okolo jedné nebo více zadaných úloh. Centrum pro zjišťování výsledků ve vzdělávání (CZVV, také známé jako CERMAT) – zodpovědné vedle maturitní zkoušky rovněž za jednotnou přijímací zkoušku – bývá vystavováno kritice za obsah testu i podobu jednotlivých úloh. Jednu z těchto kritik dokonce stvrdil svým rozhodnutím soud. Na základě testů administrovaných CZVV se rozhoduje o dalších příležitostech ve vzdělávání i v životě žáků základních i středních škol. Není divu, že jejich podoba je předmětem takového zájmu zasažené veřejnosti. Kvalitou několika úloh maturitní zkoušky dopady testování na český vzdělávací systém nekončí.
Testy ovlivňují vzdělávací politiku, určují, co se vyžaduje od zájemců o VŠ
Podstatná část představ, které si děláme o fungování našeho vzdělávání, bude vycházet z nějakého testu znalostí nebo dovedností. Například v roce 2018 jsme se srovnávali se zbytkem světa ve výsledcích testování PISA, v roce 2019 to bylo zase měření TIMSS. O výsledky mezinárodních šetření se opírá práce státních i neziskových aktérů nebo i podstatná část veřejné diskuze o českém vzdělávání. Velká mezinárodní testování pro nás hodně znamenají – částečně možná proto, že příliš nezvládáme provádět vlastní. Je celkem příznačné, že i když Strategie 2030+ otevřeně reflektuje potřebu vyhodnocovat dopady vzdělávací politiky, sama svou argumentaci musí opírat výlučně o výsledky mezinárodních šetření, protože vlastní data jsou často buď nedostatečná, nezpracovaná, nedostupná, nebo vůbec neexistují.
Význam a dopady testování ale nejsou výhradní výsadou veřejné sféry. Společnost SCIO zajišťuje přijímací zkoušky k vysokoškolskému studiu pro řadu fakult. Přes široce užívaný test Obecných studijních předpokladů se tento soukromý hráč de facto stal jedním z hlasů určujících, jaké kompetence se od absolventů středních škol (se zájmem o vysokoškolské studium) očekávají. Ověřování dovednostní totiž není jen pasivní pozorování výsledků. Testy mohou být aktivními hybateli ve vzdělávací politice.
Česká veřejná debata o zjišťování výsledků ve vzdělávání se zpravidla točí okolo kvality jednotlivých úloh nebo důležitosti dílčích dovedností v tom kterém testu. Chybí nám ale hlubší diskuze o tom, co vůbec používáním testů dokážeme zjistit, jakým účelům mají zjišťované výsledky sloužit nebo zda mají určité testy ve vzdělávání vůbec co dělat.*
* Komentář Stanislava Štecha: I před dnešním zahleděním do „recentismu“ (tj. preference relativně nedávných výzkumů a textů) existovaly kvalitní české výzkumy a texty – k testování například Hrabal, V.; Lustigová, Z; Valentová, L. Testy a testování ve škole. Praha: SVI PedF UK, 1992 a pár dalších. Ty dokládají jak teorii, tak účel a obsah testů a jejich rozmanitost.
Jak se zjišťují výsledky ve vzdělávání - nejen testy
Zjišťovat výsledky vzdělávání lze různými – více i méně kreativními – způsoby: standardizovanými testy, ročníkovými pracemi a portfolii žáků, zkoušením před odbornou komisí, praktickou zkouškou nebo klasicky učitelem před tabulí. Stejně tak je celá řada účelů, kterým může zjišťování výsledků sloužit. K čemu se hodnocení používá u nás?
OECD v roce 2012 zveřejnila zprávu o tom, jak se v českém vzdělávání s hodnocením nakládá. Z hlavních závěrů zprávy vyplývá, že se naše vzdělávání v problematice hodnocení výsledků vzdělávání myšlenkově trošku zaseklo. O testování umíme přemýšlet především v termínech „kdo je dobrý, kdo je špatný“ a testování používáme k dohledu nad žáky, jejich třídění a vzájemnému poměřování.*
* Komentář Tomáše Zatloukala, ČŠI: Za uplynulých 8 let ale došlo v této oblasti k zřetelnému posunu. Česká školní inspekce, každoročně realizuje v České republice elektronické zjišťování výsledků žáků v různých ročnících, předmětech, vzdělávacích oblastech i gramotnostech, na základních, středních o vyšších odborných školách, a to prostřednictvím inspekčního systému elektronického testování InspIS SET. Získané informace o žákovských výsledcích slouží jako jeden z důležitých zdrojů pro komplexnost výpovědí o kvalitě a efektivitě vzdělávací soustavy. Slouží také jako jeden z podkladů pro komplexní zpětnou vazbu určenou tvůrcům vzdělávacích politik nebo pro diskuze o nastavení národního kurikula a jeho revizích. Současně na základě zjištěných výsledků zpracovává různě zaměřené analytické dokumenty, které mohou posloužit dalším aktérům ve vzdělávání (samotné školy, jejich zřizovatelé, kraje, ORP, MAP, rezortní organizace MŠMT, fakulty vzdělávající učitele apod.). Na úrovni jednotlivých škol, jejichž žáci jsou do pravidelných zjišťování výsledků vzdělávání zapojeni, poskytuje Česká školní inspekce formativně orientované výsledkové sestavy referující jak o výsledcích školy jako celku, tak o výsledcích jednotlivých tříd i konkrétních žáků, včetně různě orientovaných srovnání. Každý testovaný žák se z poskytnuté výsledkové sestavy navíc dozví nejen to, jak uspěl v celém testu, ale také jak uspěl v jeho jednotlivých částech. Výsledkové přehledy jsou opatřeny komentářem podrobně vysvětlujícím to, jak je vhodné na výsledky nahlížet, jakou informaci výsledky poskytují a naopak jakou informaci z nich vyčíst nelze, což významně snižuje riziko nevhodné práce s výsledky na úrovni školy. Právě využití získaných výsledků na úrovni školy pro další pedagogickou práci je totiž stěžejním předpokladem pro vyšší užitečnost celého procesu zjišťování výsledků žáků.
Zmíněná zpráva České republice doporučuje v první řadě rozšířit si přehled o tom, jak lze zjišťování výsledků provádět a k čemu všemu by šlo využít. Klíčová doporučení by se dala shrnout následovně: pojďme o hodnocení přemýšlet méně jako o nástroji kontroly a více jako o nástroji konstruktivní zpětné vazby.
K tomu se ale musíme vypořádat s následujícím:
- vyjasnit, co od žáků a učitelů vlastně chceme;
- nespoléhat se na mezinárodní šetření, nýbrž zavést vlastní sběr dat;
- naučit se, jak požadované dovednosti měřit.
K poslednímu bodu je v závěrech zprávy doslova uvedená potřeba vytvořit odborné kapacity „v oblasti měření výsledků vzdělávání, vývoje testů, validace testových úloh či metod škálování, které jsou v České republice nedostatkové.“ Co si má ale člověk pod vývojem testů představit? Sestavit kvalitní didaktický test přece nemůže být o tolik těžší, než napsat dobré zadání písemky. Nebo ne?
Jak vznikají testy
S troškou nadsázky lze říct, že ve vzdělávání buď jednoduše změříme to, co se měří snadno, nebo složitě to, na čem záleží. Jistě je snadné sestavit a vyhodnotit dějepisný test na základě znalostí jmen a letopočtů, ale takový test nám jen stěží něco řekne o schopnosti žáků pracovat s novými informacemi nebo pochopení historických souvislostí.
Abychom dokázali odlišit dobré testy od špatných, musíme být schopni posoudit je z celé řady hledisek: didaktického, statistického, systémového, ale například i etického. Takový rámec pro široké posuzování testů vytvořili na základě velkého přehledu validačních metod badatelé Newton a Shaw. Sestává ze tří kroků, každý z nich založený na jedné otázce:
- Je test dobrý v měření toho, co má měřit?
- Je test dobrý v plnění účelu, kterému má sloužit?
- Jaké jsou vedlejší dopady podoby a využívání daného testu?
V tabulce níže ukazujeme, jak by mohly vypadat konkrétní otázky formulované dle navrženého rámce.
Kvalitní test stojí na obsahu, koncepci vzdělávání a na psychometrických vlastnostech
Testový skór má zpravidla představovat úroveň nějaké vlastnosti nebo dovednosti. Abychom mu ale přisoudili vypovídající hodnotu, musí nás autoři nejprve přesvědčit, že test odpovídá měřenému atributu přinejmenším v oblastech:
- Obsahu
- Koncepce vzdělávání
- Psychometrických vlastností
Obsah testu
Posuzování testů z hlediska obsahu bude všem poměrně známé: test, který hodnotí schopnost dorozumět se v anglickém jazyce, by měl dobře reprezentovat chápání mluveného a psaného slova nebo gramatických pravidel, ale neměl by stát například na vědomostech o historii anglicko-jazyčných národů.
Je ale těžké sestavit kvalitní test, pokud sami nevíme, co by měl vlastně měřit. Za každým pojmem jako je čtenářská gramotnost, kompetence k učení nebo i vágní matematika potřebujeme mít jasnou teorii vysvětlující, co přesně jím míníme. Dokud není teorie, nemá cenu nad testem ani přemýšlet – těžko sestavovat test, když sami nemáme jasno, co vůbec měří.
Shoda s koncepcí vzdělávání
Sherlock Holmes neví, že planeta Země obíhá okolo Slunce. Tvrdí, že jeho mozek je perfektní analytická mašina, kterou nemůže zahlcovat zbytečnými informacemi. Velký detektiv by pravděpodobně u testu širokého okruhu astronomických vědomostí vypadal jako pěkný nekňuba. Nechte ho ale týden řešit případ zahrnující pohyby nebeských těles a na všechny otázky o Slunci odpoví jako diplomovaný astronom.
Při vývoji testů často vycházíme z představy, že existuje nějaká měřitelná dovednost, která má stejnou podobu, bez ohledu na to, jakou cestou se k ní člověk dostane. Schopnost řešit matematické úlohy můžeme nabýt frontální i např. badatelskou výukou. Některá metoda možná naučí dovednost rychleji, lépe, trvanlivěji atp., ale jejich výsledky můžeme testovat bez ohledu na to, jakým způsobem se děti učily.
Jo-Anne Baird ale tento předpoklad rozporuje – k učení dochází v kontextech nejrůznějších komunit, škol, kultur, potřeb a dalších věcí. Naučené vědomosti i způsoby uvažování jsou tak nakonec vždy unikátní – někdo se učil fyziku v laboratoři a půjdou mu úlohy s konkrétními příklady, někdo zase s rodičem matematikem a nejlépe mu bude mezi vzorečky a abstraktními úlohami. V teoriích pedagogiky se již dlouho diskutuje o kontextuálních kompetencích, do teoriích testování tato perspektiva ale zatím nepronikla.
Autoři hodnocení se potřebují zabývat nejenom tím, jaké vědomosti nebo dovednosti měří, ale také zda jimi použité metody testování odpovídají tomu, kde se tyto vědomosti s dovednostmi vzaly. Pozitivním příkladem zde může být iniciativa New York Performance Standards Consortium – skupina škol, která nachází způsoby, jak univerzální metodou vyhodnocovat výsledky úzce zaměřených badatelských projektů žáků, na kterých stojí jejich výuka.
Psychometrické vlastnosti
Můžeme si dlouze lámat hlavu nad tím, jak a co by měl test měřit a z jakých úloh by měl sestávat. Existuje ale určitá mez toho, co můžeme vymyslet a odpovědět od stolu. Jistě se dá hodiny diskutovat o vhodnosti té které formulace zadání. V nějaké fázi je potřeba test použít a posoudit ho i na základě pozorování z praxe, protože některé slabiny testu se ukáží až ve chvíli, kdy se podíváme, jak na něj žáci odpovídají.
Při první úvaze se nám třeba může zdát, že někdo je prostě dobrý detektiv a někdo ne. V praxi ale vidíme, že některé kroky v řešení případu jdou lépe Sherlockovi (dedukce a analýza tabákového popílku) a některé zase Watsonovi (srozumitelné shrnutí postupu práce a komunikace s lidskými svědky). Na základě pozorování tak přehodnotíme naši původní teorii detektivní dovednosti.
Psychometrie je obor který se podobným způsobem zabývá prací s daty z testování. Na základě statistických analýz posuzuje takové věci, jako je přesnost měření (Jak často v testu neuspějí jinak kompetentní žáci?), počet rozměrů měřené dovednosti (Může být někdo dobrý v geometrii, a přesto špatný v integrálech? Má smysl dávat z matematiky jen jednu souhrnnou známku?) nebo třeba předpojatost testu (Najdou se v testu úlohy, u kterých se nedaří jen chlapcům, bez ohledu na jejich celkovou úroveň dovednosti?).
Dobrá psychometrie nám sama o sobě kvalitní test nezajistí. Bez ní ale diskuze o kvalitě měření může velice snadno sklouznout do roviny teorií a dojmů. Jakkoliv potřebujeme celou řadu garancí kvality testování, psychometrické analýzy patří nepochybně mezi ně.
Každý účel měření potřebuje jiný test
Existují názory, že každý test by měl sloužit jen jedinému specifickému účelu – maturitní zkouška na konci studia razítkuje žáky a PISA dělá ze vzdělání mezistátní dostihy, tečka. Paul E. Newton ale myslí, že testy pro ověření znalostí a dovedností mohou sloužit různým účelům a nemusí se nutně omezovat pouze na jeden.
Ne každý test ale poslouží dobře každému účelu – přesnost kuchyňských vah stačí k domácímu pečení chleba, ale v lékárnách se používají jen zřídka (a když už, je to trošku podezřelé). V podobném duchu nelze posoudit, zda je náš test čtenářské gramotnosti dostatečně přesný, pokud nevíme, k čemu jej chceme využít.
Vezměme si smyšlený příklad přijímacích zkoušek na vysokou školu. Hypotetické vedení chce své vysoké škole ušetřit práci s výukou. Hledá proto takový test, který úspěšně vybere žáky, kterým půjde studium víceméně samo. Prakticky to znamená, že rozdíly mezi skóry v testu jednotlivých uchazečů se budou rovněž odrážet ve známkách, které během studia obdrží. Bohužel, podle studie Bartákové, Chvála a Martinkové přijímací testy českých vysokých škol vysvětlují jen mezi 4 a 16 % rozdílů ve známkách mezi studenty. Podobnému účelu tedy používané testy vyhovují jen stěží.
Špatně nastavené přijímací řízení může nespravedlivě vyřadit studenty, kteří by jinak měli šanci úspěšně dostudovat, a hůř dopadá na skupiny, kterým se v něm systematicky nedaří (jako podotýkal už v roce 1971 Robert Thorndike). Dokonce i takový technický parametr, jako je spravedlivé nastavování hranice úspěšnosti, potom odvisí od toho, co se má daným testem předvídat.
Proto nestačí jen posoudit, zda test dobře měří tu znalost či kompetenci, ale zda jím měřené hodnoty spolehlivě předvídají to, co od nich čekáme.
Každý test má vedlejší dopady, musíme o nich vědět
Ve veřejné diskuzi se objevují hlasy, že nebýt maturitní zkoušky, žáci se přestanou učit, vyrazí do ulic a ze středních škol můžeme udělat skladiště bramborového škrobu. Druhá skupina zase varuje, že testování vysává z dětí vnitřní motivaci k učení a vrozenou radost z poznání.
Nezamýšlenými dopady testu je třeba se zabývat stejně jako těmi zamýšlenými. Musíme ukázat, že test pomáhá (tvrdíme-li, že pomáhá) a dokázat, že neškodí (tvrdíme-li, že neškodí). Jistě se můžeme přít, na kom a kdy leží dokazovací povinnost, ale většinu takových debat stejně dříve nebo později budeme muset empiricky rozseknout. Jistě jde o těžký úkol – je totiž třeba průběžně vyhodnocovat neznámé a opakovaně se ptát, jaké otázky jsme si ještě nepoložili.
Zpětným dopadům testování na to, jak se učí, se v odborné literatuře říká washback. Příkladem takového washbacku je standardizované testování v rámci vzdělávací reformy No Child Left Behind v USA. Původní záměr testování byl jednoduchý: pojďme testováním zjistit, jak školy učí. Dobré pojďme odměnit, špatné zkusme napravit, případně trestat. Jenomže jak poukazují akademici jako Kenneth Rowe nebo David Berliner, využití testů pro posuzování kvality škol může vést k takovým dopadům, jako je redukce kurikula nebo segregace škol i celých sousedství. Americké školy zareagovaly prostě: budete nás testovat? Začneme učit jenom to, co je v testech.
Co to znamená pro nás? V České republice se školy podle výsledků ve standardizovaných testech naštěstí systematicky neodměňují. Zato se hojně používají v přijímacích řízeních, například podle nich třídíme děti do středních škol. Máme ale představu o tom, zda naše testy jen neposílají chudší děti do horších škol? Co víme o nenaplněných možnostech dětí, o jejichž vzdělávací dráze se rozhodlo ještě před pubertou?
Kritik standardizovaného testování Wayne Au upozorňuje, že plošné měření výsledků jednotnými testy hraje zásadní roli ve vytváření a replikování společenských nerovností. Výsledky testů jsou určeny celou řadou faktorů, nad kterými dítě nemá kontrolu – socioekonomický status rodičů, kulturní původ a jiné. Jakýkoli vzdělávací systém, který používá standardizované testy k rané selekci tak pod zdánlivě objektivním hávem dovednostních testů replikuje společenské nerovnosti.
Například studie na dvojčatech výzkumného týmu Bartelse a ostatních ukázala, že výsledky testů společnosti nizozemské CITO, která inspirovala i standardizované testování v České republice, vykazují znaky dědičnosti. V demokratické společnosti není obhajitelné omezit dětem přístup ke vzdělávání na základě toho, komu se narodily. Nizozemští psychometři Borsboom a Wijsen ale varují, že odpírat jej na základě výsledků testů se může zdát (až vědecky!) obhajitelné, ačkoliv se jedná o totéž v bleděmodrém.
Je nutné vést diskuzi o etičnosti zjišťování výsledků a jeho využití: je vůbec správné přístup ke vzdělání zakládat na základě vědomostí a dovedností? Co všechno tím způsobujeme dětem i našemu vzdělávání? Taková diskuze – ač v principu hodnotová – se ale neobejde ani bez empirických podkladů. Chceme-li testy nadále používat, musíme umět klást často obtížné a nepříjemné otázky o jejich kvalitě a využití.
České vzdělávání potřebuje kritickou diskuzi o účelech testování
Strategie 2030+ správně zdůrazňuje potřebu vytvoření testovacích kapacit pro celé spektrum využití. Musíme být schopni dávat zpětnou vazbu žákům, školám i samotnému systému. Nic z toho se bez solidních informací neobejde.
V současnosti Česká republika buď musí přebírat výsledky mezinárodních šetření, nebo využívá testy bez příbalových letáků (tedy bez solidní dokumentace – více o potřebě transparentnosti píše Newton, 2005), jejichž validita není doložená hlubší koncepcí ani psychometrickými analýzami. Zatímco těmto testům nedůvěřujeme natolik, abychom z nich vypracovávali obecné statistické analýzy o kvalitě vzdělávání v zemi a jejím vývoji v čase, neštítíme se používat je pro potřeby certifikace a přijímacích řízení. Často tak rozhodujeme o životních drahách dětí bez odůvodnění účelu nebo garance rovnosti a spolehlivosti.*
* Komentář Stanislava Štecha: Velmi pěkná kapitola – hlavně však opět spíše ze školsko-politického, nikoli pedagogického hlediska. Nelze se soustředit jen na tzv. high stakes testy a jejich funkci. Ale také na další potřebné a užitečné low stakes testy. Testování jako nástroj hodnocení má mnoho použití (rozlišující, ověřující, vstupní, průběžné, tématické, výstupní atd.)
Odpůrci testování v Česku z neznalosti pedagogiky a psychologie parodují testování jen kritikou uzavřených, dichotomických položek, a tvrdí, že nemají skoro žádný přínos pro žáka, učitele i rodiče. Současná situace vyžaduje spíše odborně podloženou rehabilitaci testů (včetně přijímacích nebo výstupních).
Podle Marthy Foote z New York Performance Standards Consortium nastal možná čas místo věčného posuzování žáků posoudit testy samotné. Je načase ověřit, zda dokáží to, co o nich jejich proponenti tvrdí, obzvlášť když se na jejich základě rozhoduje o dětech a jejich budoucnosti. Je načase vyjasnit, co od testování vlastně chceme – kde je užitečné a kde je pouze zvykem a důsledkem naší omezené představivosti. Máme-li potřebu třídit, nevybíjejme si ji na dětech. Místo toho pojďme zvážit, kolik skutečně důležitých otázek by nám systém kvalitního ověřování výsledků ve vzdělávání mohl pomoci zodpovědět.
Klíčové body
- přesnost formulací otázek v testech je důležitá, ale musíme se bavit také o účelech testování a jejich vedlejších dopadech
- Česko využívá testování hlavně ke kontrole, značný potenciál je v testování jako nástroji zpětné vazby pro vzdělávací systém
- Česku chybí odborné kapacity v oblasti ověřování výsledků vzdělávání
- je potřebná kritická debata o aktuálně využívaných testech a jejich účelech
Bartels, M., Rietveld, M. J., Van Baal, G. C. M., & Boomsma, D. I. (2002). Heritability of educational achievement in 12-year-olds and the overlap with cognitive ability. Twin Research and Human Genetics, 5(6), 544-553.
Baird, J. A., & Black, P. (2013). Test theories, educational priorities and reliability of public examinations in England. Research Papers in Education, 28(1), 5-21.
Baird, J. A., Andrich, D., Hopfenbeck, T. N., & Stobart, G. (2017). Assessment and learning: Fields apart?. Assessment in Education: Principles, Policy & Practice, 24(3), 317-350.
Bartáková, I., Chvál, M., & Martinková, P. (2018). Predikční validita zkoušek zakončujících středoškolské vzdělávání a přijímacích testů na vysoké školy. Pedagogika, 68(1).
Berliner, D. (2011). Rational responses to high stakes testing: The case of curriculum narrowing and the harm that follows. Cambridge journal of education, 41(3), 287-302.
Borsboom, D., & Wijsen, L. D. (2017). Psychology’s atomic bomb. Assessment in Education: Principles, Policy & Practice, 24(3), 440-446.
Borsboom, D. (2005). Measuring the mind: Conceptual issues in contemporary psychometrics. Cambridge University Press.
Foote, M. (2007). Keeping accountability systems accountable. Phi Delta Kappan, 88(5), 359-363.
Geiser, S., & Studley, W. R. (2002). UC and the SAT: Predictive validity and differential impact of the SAT I and SAT II at the University of California. Educational Assessment, 8(1), 1-26.
Newton, P. E. (2005). The public understanding of measurement inaccuracy. British Educational Research Journal, 31(4), 419-442.
Newton, P. E. (2017). There is more to educational measurement than measuring: The importance of embracing purpose pluralism. Educational Measurement: Issues and Practice, 36(2), 5-15.
Panayides, P., Robinson, C., & Tymms, P. (2010). The assessment revolution that has passed England by: Rasch measurement. British Educational Research Journal, 36(4), 611-626.
Rowe, K. J. (2000). Assessment, League Tables and School Effectiveness: Consider the Issues and “Let’s Get Real!“. The Journal of Educational Enquiry, 1(1).
Santiago, P., et al. (2012), OECD Reviews of Evaluation and Assessment in Education: Czech Republic 2012, OECD Publishing.
Straková, J., Simonová, J., & Greger, D. (2019). Faktory ovlivňující přechod žáků do středoškolských maturitních oborů. Pedagogika, 69(2).
Thorndike, R. L. (1971). Concepts of culture‐fairness. Journal of Educational Measurement, 8(2), 63-70.