*PISA可提供幫助,改善教育。因為PISA有一套完整的系統,有學科的理論建構,其對學科目的、學科的基本特徵、學科的測量體系/方法等都有系統的闡述與架構。
*PISA非常關注與教育有關的對象。例如:學校、家長、學生、教師、社區等,並建立了一套相關研究的測量評量體系。
*PISA的研究非常重視一個地區或一個國家的教育政策對教育過程、教育方法、教育水準等的影響,並提供國家或地區層面的教育政策諮詢服務。
*PISA可為教育工作者提供教育想法,也可以讓我們學習與認識一個學科的本質、體系、測量方式,更能為我們的學科教學提供理論上與實際上的支持,以及為我們對學生的學科能力和學科素養的培養提供途徑與方法。
*教師、教學管理者和所有教育工作者都要關注、研究PISA,汲取營養並為自己所用。
作者簡介:
蔣德仁
科學教師
章節試閱
第一章 PISA的基本框架
第一節 PISA的基本理念
一、時代背景
知識經濟的到來,引發了世界範圍的教育改革。如何實現對人才培養品質的有效監控,以引導教育的健康發展,這已成為目前世界各國教育關注的焦點問題。評價一個國家教育的總體品質,評價一所學校的教學狀況,評價一名學生的基本素養,其價值導向是什麼,其評價標準又是什麼,以及通過什麼方式、方法、手段才能科學有效地進行評價與監控,這些都是世界各國教育研究者在新世紀所面臨的共同課題。國際經濟合作與發展組織(Organization for Economic Cooperation and Development,簡稱OECD)為滿足學生學業成績的跨國比較研究需要,滿足社會發展對人力資本的品質監控要求,克服以往教育對學生評價的不足與缺陷,於1997年啟動開發實施了“國際學生評價項目”(Programme for International Student Assessment,簡稱PISA)。PISA主要對即將完成義務教育的15歲學生進行評估,測試學生們是否掌握了參與社會所需要的知識與技能,其評估結果對許多國家的教育改革產生了深遠的影響。這一有關15歲在校生的國際性學生學習品質比較研究項目,從一個全新的角度展開了對人力資本的測量與評價。測量的內容主要是生活所需要的基本知識和技能:閱讀素養、數學素養、科學素養以及問題解決能力,重點考查學生運用所學知識和技能解決實際問題的能力。此外,還收集學生的學習態度、學習策略、家庭背景以及學校因素等影響學生表現的背景資訊。可以用於測量義務教育即將結束時,15歲年輕人為走向社會而準備的知識和能力情況。
對學生的表現進行國際比較評估的想法在OECD由來已久。早在20世紀70年代,OECD的綠皮書就開始嘗試建立一個教育資料的收集與比較模式。但是直到80年代中期,對教育成功指標的測量才變為OECD的重點關注領域。1988年,OECD在巴黎召開第38屆年會,開始正式推動國際教育指標體系方案的建立,由OECD的教育研究與改革中心(CERI)負責完成。1992年,OECD出版了《教育概覽:OECD指標》(Education at A Glance: OECD Indicators)一書,提供了其成員國的教育系統在3個領域(教育人口、經濟與社會背景;教育經費、資源和學校進程;教育成果)的36項核心指標上的對比狀況,宣佈了OECD教育指標體系的正式問世。此後,OECD的《教育概覽》逐步發展成年度刊物,同時教育指標體系也在不斷革新和完善。
一年一期的《教育概覽》大部分涉及的是教育的人力投資和財政資源,教育系統的合作,個人、經濟和社會對教育投入的回報等,但一直缺乏對教育產出情況的有效考察。教育產出缺乏國家間共有和可信的指標,特別是在知識和技能方面的測評缺少可信的資料,這使得決策者、納稅人、教育者和家長都希望有一套評價教育體系的有效工具。1995年,為了滿足OECD成員國希望獲得關於學生知識、技能及教育表現的常規、可靠的資料,PISA專案被首次提出。雖然期間受到一些內部力量的阻礙,但OECD還是在1997年正式啟動了PISA項目。從提出設想起,經過五年的研究與試點項目,OECD最終在PISA調查的框架上達成了一致。2000年,PISA開始了第一輪測評。此後,每三年舉行一輪測評。其新穎、規範、科學的設計與嚴格的控制標準,引起了廣泛關注和強烈反響。
二、基本理念
PISA評價的重點並不是初中學生掌握了多少學科知識,而是他們在實際生活中創造性地運用這些知識和技能的能力。它著眼于學生的終身可持續發展,為生存而學習是評價的基本理念。基於終身學習的動態模型設計測試,它評價學生現實生活和終身學習所必須的知識和技能。與學校學習科目緊密相關,它集中於學生習得技能的價值和解決問題的能力上,在一個更廣闊的範圍、在實際生活的情境中測試學生的實際操作能力和文化素質。它考查人們在學習化的社會裏所必須的那些知識和技能,這些知識和技能需要透過終身學習才能獲得。它衡量的是學生面對實際生活挑戰的能力,而不僅僅侷限於他們對學校課程的掌握情況。
PISA是一種終身學習的動態模式和技術需求。學生不僅需要依靠學校的教學,而且還需要瞭解成人的生活。學生必須組織和規範其自身獨立學習及團體學習,克服學習過程中的困難,進行能在未來生活中獲得成功的學習。更進一步地說,學習和其他知識的獲得,將於實際情境中持續增加。通過多領域、多維度的測試,希望瞭解即將完成義務教育的各國初中學生,是否具備了未來生活所需的知識與技能,基礎教育階段的學習是否為終身學習奠定了良好的基礎。
三、評價目標
在PISA啟動之前的40多年間,主要由國際教育成就評價協會IEA和美國教育考試中心ETS的教育發展國際評價(IAEP)所從事的研究已有許多成果。但是,這些評價研究關注的是與課程有關的成就,且僅僅評價參與國所共有的課程。
而PSIA的評價則是前瞻性的,它測量的是15歲青少年對於迎接高科技和知識社會的挑戰的準備情況。因此,PISA更加關注學生運用在校所學知識能夠做些什麼。PISA的測量目標是發展常規的、可靠的、與政策相關的學生成就指標,從而達到關於國家教育體制的品質、公正性和效率的評價目標。
PISA評價關注四個子目標的實現:學習成果的品質;學習成果的等價性和學習機會的均等性;教育過程的有效性和效率;教育對社會經濟的影響。PISA將教育系統分為教育與學習中的個人參與者、教學背景、教育服務的提供者、作為整體的教育系統四個層面進行分析。
PISA的測評模型就是圍繞教育系統的上述四個層面展開的。這四個層面分別從教育成果、政策杠杆、前提條件三個領域入手,不僅關注國家的經濟、人口等因素,關注學校的因素,也關注學生個人的家庭、移民、興趣、愛好等因素。
表1-1 PISA評價目標分析表
PISA從社會、文化、經濟以及教育因素等方面考查學生和學校的特徵。個體學習者層面的因素包括性別、社會背景,以及有關自我的認知、動機因素以及教育期望等。教學設置層面的因素包括教師教學策略、學生知覺到的課堂氣氛、教師支持、教材使用以及班級大小、學校組織和結構等因素。學校層面的因素包括學校類型、學校結構、學校資源、學校風氣、學校管理以及課堂實踐等。
使用來自學生問卷和學校問卷的資料,將背景資訊與學生的成就鏈結起來,可以比較研究下列問題:
①各國在學生水準因素與成就之間關係上的差異;
②各國在學校水準因素與成就之間關係上的差異;
③學校之間的差異,以及各國之間學校差異的差異;
④各國在學校提高學生成就效應上的差異;
⑤與學生成就差異有關的教育體制和國家背景的差異;
⑥透過與PISA 2000建立鏈結,所有這些關係之間的變化情況。
PISA為各國提供了一個良好的教育品質檢測平臺,為各國及時調整自己的教育政策提供了非常有用的資訊。對於政策制定者而言,通過對比自己國家和其他國家教育系統的成就表現,總結已有政策的經驗,改善教育體制,並基於PISA提供的指標更好地評價和監控教育體制的效力與發展。
四、基本特性
1.政策的導向性。PISA專案的設計和報告方法主要為政府政策決策的需要而設計,以便政府汲取政策上的成功經驗。
2.定義的獨創性。譬如關於素養(literacy)概念:關注學生應用知識、技能的潛力,以及面對實際情境時,理解問題、解決問題,分析、推理和有效地交流的潛力。
3.學習的可續性。不局限於評價與課程相關的能力,還要求學生報告學習動機。不僅要評價學生的知識和技能,也要讓學生報告他們的學習動機、學習策略、自身的信念、對自己的瞭解和對不同學習環境的態度,以便綜合評價學生。
4.操作的規範性。PISA的檢測工具開發、檢測標準設定、檢測資料處理和檢測結果判斷等各環節的操作嚴密可行、規範有效。PISA提供的結果使得各國可以監控其教育品質。
5.內容的全面性。主要是生活所需要的基本知識和技能:閱讀素養、數學素養、科學素養以及問題解決的能力,重點考查學生運用所學知識和技能解決日常生活問題的能力。此外,還收集學生的學習態度、學習策略、家庭背景以及學校因素等影響學生表現的背景資訊。
6.主體的多元性。PISA突破了傳統的單一學校評價方式,形成了多元化的評價主體。PISA的評價主體包括學生、家長、校長和教師四個方面,從各個方面對學生作了全面的評價。
7.參與的廣泛性。參與PISA專案的國家與地區的國民生產總值之和占全世界國民生產總值(GDP)的90%左右。
8.取樣的參照性。PISA選取義務教育階段結束時的青少年作為測試物件,便於各國評價其教育系統的品質。
第二節 PISA的組織方式
一、指導監管
PISA管理委員會(PISA Governing Board)是由各OECD成員國教育部任命的一位該國代表和PISA的各參與國(地區)教育主管部門任命的一位觀察員所組成。管理委員會主席由委員會商議決定。管理委員會在OECD教育目標的指導下,確定每次PISA測評的重點,制定測評指導原則,以保證測評順利實施。
二、日常管理
OECD秘書處(OECD Secretariat)負責PISA的日常管理,包括監督調查實施的情況、為PISA管理委員會管理行政事務、通過跨國交流得出一致意見等。它架起了PISA管理委員會和PISA國際聯合處之間溝通協作的橋樑。OECD秘書處的現任主席是Andreas Schleicher,他同時也是OECD教育理事會下屬的指標與分析部(Indicators and Analysis Divison)負責人。
三、設計實施
PISA的具體設計和實施由多國機構組成的PISA國際聯合處(PISA Consortium,亦稱國際承包商international contractor)來負責。該聯合處由一些國際大型的測評機構組成,它以澳大利亞教育研究委員會(Australian Council for Educational Research, ACER)為首,其他聯合機構還包括荷蘭的全國教育測量研究所(CITO)、美國的Westat公司和教育考試服務中心(ETS),以及日本的全國教育政策研究所(NIER)。
四、發展規模
自2000年以來,已經完整地實施了四輪PISA測評,包括PISA 2000、PISA 2003、PISA 2006和PISA 2009。PISA在2000年開始第一輪測評,最初有32個國家參加,包括28個OECD國家和4個非OECD國家。隨後,又有11個國家和地區加入了PISA的測試,共有43個國家和地區參與。2003年進行第二輪測評,除了30個OECD國家參加外,還有11個非OECD國家(地區)參與。2006年進行第三輪測評,有57個國家和地區參與;2009年進行第四輪測評,共有74個國家和地區參與,非OECD國家(地區)的數量已經超過了30個。不過,在PISA 2009報告中,只有65個國家和地區的結果,因為有9個國家稍後才參加PISA。
越來越多的非OECD國家(地區)參與了PISA的測試,一方面是因為有些國家(地區)希望從國際的視角瞭解本國或本地區教育發展的水準;另一方面,也有一些國家(地區)希望通過參與PISA學習OECD的學生學業測試的組織管理模式,以便為本國(地區)建立長期有效的品質監測體系提供參照。2009年對9歲和15歲學生分別評價並將評價結果建立鏈結,從而檢查各國學生的學習進程。
我國教育部考試中心2006年引進並啟動了PISA 2006中國試測研究項目,2006年10月正式啟動。PISA 2006中國試測研究並不代表中國大陸正式參與PISA。天津、北京和濰坊三個城市一起參加了2006年PISA在中國大陸地區的試點性測試研究。其中,天津市共有50所學校的1,700多名學生參加了最終測試。
2009年4月17日,PISA正式在上海開始測試。5000名在1993年1月1日至1993年12月31日期間出生的學生參與測評,分佈在150餘所中學。PISA要求各國(地區)的樣本範圍在4,500-10,000名學生之間,學生來源於150所中學以上。我國的學生和學校的樣本數與取樣要求完全符合OECD的要求。
第三節 PISA的操作規程
一、規程制定
PISA的規程制定主要由國際聯合處完成,在此過程中還得到了各國(地區)教育主管部門的支持和指導。規程的制定主要包括如下步驟:
1.由PISA管理委員會、國際聯合處、OECD秘書處共同制定測評指導原則,以保證測評順利實施。
2.由國際專家團隊向PISA各參與國(地區)深入諮詢後,確定各測評領域的技能和能力範圍,對測評領域進行操作性界定。
3.評估各項任務的組織程序,以便向決策者和研究人員彙報參與國家(地區)15歲學生在各測評領域的成績。
4.確定構建測評題目所需要重視的一系列關鍵特徵並使其可操作化。
5.評估變數的有效性。
6.準備對結果的解釋方案。
二、工具編制
PISA的評價工具是13套經過等值處理的試題冊,每個學生一套(2小時題量)。PISA 2006精選28道閱讀題目、48道數學題目和103道科學題目作為測試工具。PISA同時還有系列的調查問卷。
1.命題機構
PISA的評價工具由PISA管理委員會和國際聯合處共同完成。PISA管理委員會挑選閱讀、數學、科學等領域的世界級專家組成專家組,負責設計每次PISA調查的理論框架,組織問卷調查專家負責並指導PISA問卷的制定。國際聯合處自行設計或邀請所有的PISA參與國(地區)提交具體的測試問題,然後由國際聯合處及各參與國(地區)審閱,只選取大家都無異議的題目,最終確定試題庫。試題庫中的每道題目都由各參與國(地區)進行評分。在正式測試之前,還會在所有參與國(地區)進行試測,試測證明在某些國家太易或太難的題目都會在正式測試時被取消。測試題由各國專家翻譯成本國的文字,學生用本國語言作答。
PISA很重視試題所具有的跨文化性和跨國跨地區性。在PISA 2006中,國際專業協作組織委託五個國際知名的研究機構設立國際命題專家組負責PISA科學的命題,它們分別是:澳大利亞教育研究理事會(ACER)、荷蘭教育考試院(CITO)、OSLO大學(ILS,挪威)、KIEL大學(IPN,德國)、日本國立教育研究所(NIER)。另外,還有4個專家組(科學專家組、閱讀專家組、數學專家組、技術專家組)配合命題的工作。這些命題專家組不僅負責一部分的命題工作,也對各參與國家和地區提交的試題進行評審和修訂,保證PISA試題的品質。其中,澳大利亞教育研究理事會根據PISA專業協作組織的管理和科學素養框架的要求,從整體上協調並監督各命題專家組的工作。
2.命題程序
PISA從命題到最後確定試題主要有兩個階段。第一階段是PISA國際命題專家對各參與國家和地區提交試題的審查,第二階段是對所有提交試題的國際審查(如圖1-1所示)。
一般而言,由各參與國家和地區提交的試題都必須經過至少一個國際命題專家組的審核和修訂,並由此專家組將經過篩選或修訂後的試題提交至ACER,進行進一步的審核、篩選和修訂(過程如圖1-1所示)。各國際命題專家組提交的試題也必須至少由另一個國際命題專家組進行審核,再與各參與國家和地區提交並經過審核的試題一起,共同彙集到ACER,開展國際性的審核和修訂,並篩選出試測所用的新試題。最後,篩選出來的新試題與確定的連接試題一起作為試測試題,在所有的參與國家和地區中試測,並利用試測結果的資料分析,以及各參與國家和地區對試測結果的回饋,再次篩選或修訂試題,確定最終正式測試所用的試題。
3.命題特點
(1)多方命題,專家反覆審核修改。無論是PISA國際命題專家組提交的試題單元,還是各參與國家或地區提交的試題單元,都要經過本地的審查和試題的實驗性認知活動(cognitive laboratory activities)。每經過一個階段,就要對試題進行篩選、剔除,或作進一步修改和完善,這樣的審核修改至少有4次,最多可達7次,保證每一道試題都能經過不同專家的反復審核和修改。
(2)進行試測,並對測試資料進行統計分析。無論是本地的實驗性測試、由ACER開展的國際實驗性測試,還是所有參與國家和地區都參加的試測,都需要將測試結果錄入,進行統計分析,得出試題的功能性差異等指標,並以此為基礎對試題進行刪減或進一步修改完善,確保正式測試所用試題的品質,盡可能保證試題對所有參與國(地區)學生的公平性。
4.評分標準的制定
PISA試題命題的過程,也是評分指南逐步完善的過程。在題目的最初設計中,PISA就要求將每道試題的評分指南草稿列入其中;隨後,在實驗性認知活動中,通過與學生座談等,收集並整理世界各國學生對試題的回答;最後,將這些回答與測試框架相結合,確定試題的評分要點描述和相應的學生回答案例。
PISA測試共有五種題型,包括選擇題、封閉式問答題、簡答題、複合選擇題以及開放式問答題。其中,開放式問答題和部分簡答題沒有固定答案,需要評分專家進行人工編碼。PISA開放題的評分標準是根據學生的真實回答而研製的,主要包括兩部分內容:評分要點描述、回答示例。其中,評分要點描述類似於我們考試中的“標準答案”,而回答示例則選取多個具有代表性的學生的真實反應,用以直觀說明不同代碼學生的典型回答。
這些回答示例絕大部分來自PISA試題研製兩個階段中的實驗性測試。第一個階段,各參與國家或地區設計的試題要提交給一個國際命題專家組審核,審核過程中要組織一次至少有30名學生參加的實驗性測試(pilottesting)。若試題進入第二個階段的審核,ACER將再組織至少50名學生對修訂後的試題進行實驗性測試。這兩次測試,除了要根據學生的反應對試題進行修訂外,還有一項重要功能,即收集學生的真實答案,用以修訂評分指南中的評分要點描述,同時,具有代表性的回答將補充到回答示例中。
從評分指南的制定過程我們可以看到,PISA以學生的真實反應為制定答案的依據,鼓勵學生提出不同的觀點,這充分體現了PISA以學生為本的思想,有利於學生發展個性,提出具有創造性的想法。
5.調查問卷
PISA問卷調查:一般有學生問卷、學校問卷和家長問卷。
(1)學生問卷
除了2小時的測驗之外,每名學生還要求完成一份約半小時的背景問卷,該問卷提供了有關學生自身及其家庭的資訊,大致內容如下:
閱讀教學方面:包括學生的興趣、動機和參與度。
學生生活方面:如他們的學習態度、愛好和在校生活、家庭環境。
學校方面:如學校人力物力資源的品質、公私防範與控制、不同層次的管理調控、決策的程式、員工常規、學校的重點課程和課外活動的提供。
教育環境:包括校舍的類型、班級數量、學校班級氛圍、讀書的積極性。
學生及家庭背景:包括他們的經濟、社會和文化財富,以及教育經歷和電腦熟悉程度等。
(2)學校問卷
測試學校的校長需要完成一份約20分鐘的有關學校資訊(學校統計學變數、學習環境品質)的問卷。問卷內容一般包括學校的組織和結構、師生團體、學校資源、學校教學課程和評價、學校風氣、學校的政策及其實施、學校聘任特點等。
(3)家長問卷
家長問卷內容一般包含基於父母的特點、孩子過去的閱讀參與度、父母自己的閱讀參與度、家庭閱讀資源和支持、父母的背景、父母參與學校的觀念、父母選擇學校的範圍等。
PISA 2009的學生問卷、學校問卷和家長問卷請參見附錄。
三、學生抽樣
在抽樣方法上,PISA的目標總體採用了基於年齡的界定。PISA選取的樣本是測試時年齡在15歲3個月到16歲2個月之間的在校學生,不管學生在哪個年級或哪種教育機構就讀,也不考慮他們接受的是否是全日制教育。但是,不包括未在教育機構就讀或在國外上學的15歲學生。每個國家(地區)所制定的特定樣本設計和樣本大小都是為了學生層面估計值的抽樣效率最大化。
PISA評價專案所採用的取樣設計為兩階段分層取樣,即首先隨機抽出樣本學校,繼而在樣本學校中隨機抽出樣本學生。
為了保證取樣的精確性,要求必須從至少150所學校中抽取4500個以上的樣本容量。第一階段的取樣單元為含有15歲學生的個體學校,以隨機抽樣的方式在每層抽取學校,各層的抽取率與各層學校多少及學校內的學生數量成比例。第二階段的取樣單元為樣本學校中的學生,從每一所樣本學校中等概率地抽取35名學生(底線為20名)。並且,在第一階段選取的學校中,學校參與率要求達到85%,所選取考生的作答率要求達到80%(底線為50%)。如果初始選取學校的作答率低於85%,那麼,必須通過從候補學校中取樣來達到要求。為了保證總體覆蓋率,在學校水準和學生水準的總的排除率必須低於5%。
四、具體施測
在PISA的具體測試中,各參與國(地區)政府要任命一個國家專案經理(PISA National Project Manager)來負責監督每個參與國(地區)的評價實施情況。PISA的測評形式為紙筆測試,測試均在學生所就讀學校內進行。
測評包括兩部分:素養測試和個人背景與學習情況問卷。每個學生的素養測試時間為2小時,但由於有不同的題本組合,因此總測評時間加起來一共約390分鐘。在每位學生素養測試的2小時內,每輪測評重點領域(如2009年為閱讀素養)的測試時間占總測試時間的2/3。此外,PISA 2009年還加入了額外的大多數國家(地區)參與的學生電子文本閱讀測評,時間為40分鐘。
素養測試題目由問答題與選擇題相結合。題目通常以單元形式組織。每個單元包含一段文字或一個圖表,都是學生在現實生活中可能遇到的問題。學生的個人背景與學習情況問卷約為30分鐘,主要涉及學生的背景、學習習慣和對學習環境的認知,以及參與學習的程度和動機。
PISA所使用的測量方法以紙筆測驗為主,但這並不意味其只重視紙筆測驗,相對地,OECD/PISA亦要求能將更廣泛的知識和技能運用於日常生活之中。評價的方式可採用各種形式,可以是“封閉式”,也可以是“開放式”。一般來說,多數人傾向於把那些答案靈活開放(即可以有多個正確的答案)的題目都歸入開放題[1]。相比國內而言,PISA命題專家對開放題的界定更為明確:開放題(open-constructed response)的全稱為開放結構式反應題,是指那些答案靈活、應答內容較多、通常要求對答案作出解釋的題目。而那些答案雖然也較靈活、但不需要作出較多的解釋、通常只需要用一個詞或短語來回答的題目,稱為封閉結構式反應題(closed-constructed response)。高層次技能的測量通常採用“開放—目的”的問題測量,所謂“開放—目的”的問題測量指允許學生使用不同方法和策略從而達到預期目的,這樣就能以多元化的觀點檢測學生的各種表現。
五、測試評分
PISA透過分數來劃分能力等級,一共有六個能力水準。每個參與國(地區)在一個具體領域中(如閱讀、數學或科學)的得分是這個國家(地區)所有參與測試學生在該領域的平均分。PISA不提供所有測試的總分,只提供每一特定領域的分數,並根據參與國(地區)在各具體領域的平均分進行排名。
需要評分專家人工評分的試題大約占總試題量的45%。按每個國家(地區)最少4500名學生估算,至少有116000個回答需要人工評分。為了保證各個國家(地區)之間評分的公平性和一致性,PISA設計了試題本輪轉程式、評分培訓、分類計分、多次評分、評分檢查等品質控制環節。
1.試題本輪轉程式
PISA設計了規範細緻的試題本輪轉程式,保證在各個領域中,每一位評分專家都要參與每一個試題組的評分,使每位評分專家都能瞭解整體情況;確保每個學生的答題都是由一位以上的評分專家評分的,每所學校的試題也是由一群評分專家評分的,從而減少人為的“寬”或“嚴”所產生的影響;要求評分專家評分時,必須是同一批試題本中的同一道題全部批完以後,再接著評下一題。這樣做,盡可能確保了每道題評分的前後一致性,避免了“暈輪效應”,即評分專家在對當前試題進行評分時受學生試題本中前面試題回答的影響。
2.評分培訓
在試測前和正式測試前,PISA專業協作組織會進行一次評分專家的國際培訓(共兩次培訓),再由經過國際培訓的評分專家對參與評分的本地評分專家進行本地培訓。
在本地培訓中,培訓與評分是交替進行的,每次一個單元組(cluster)。5個步驟分別如下:評分專家親自做一遍試題→熟悉該試題組的評分指南,對自己做的練習進行批改→進行國際樣例培訓和討論→獨立完成國內樣例評分練習→取得高度一致性後再對這一組試題進行評分。如果在國內樣例評分練習中有超過10%的不一致,就要補充國內樣例或者從國際論壇上選擇其他國家的典型樣例補充討論。只有這樣,才可以保證評分專家在評分時對評分培訓內容記憶猶新,不容易為其他評分試題原則和標準所干擾。
3.答案分類計分
PISA評分是先將學生答案分類,賦予代碼,然後將代碼輸入資料庫管理軟體。原始資料庫提交國際組織後,由國際組織統一將代碼轉化為標準分。
根據測評框架和總結試測所收集的學生回答實例,PISA針對每一道主觀題的評分指南中都確定了評分的類別,一般分為1(滿分)、0(零分)兩個等級,或2(滿分)、1(部分得分)、0(零分)三個等級,在個別情況下,也有分3、2、1、0四個等級的。這些評分類別並非學生在這道題的最後分數,而是確定其答案的等級,最後的分數要根據參與測試學生的回答狀況,對學生回答的資料運用專案反應理論量化(scaling)後,才最後確定其得分。
PISA這種將評分和計分兩個過程獨立分開的方式,有利於評分教師在評分時盡可能保持中立客觀,根據給出的評分標準給出相應代碼,減少評分時教師直接看到分值而可能給學生得分帶來的負面影響。而且,0、1(和2)的評分類別相對簡單,教師在評分時也相對更容易掌握,較能在評分過程中保持原則的一致性。
另外,用測試結果確定的試題難度值給所得評分類別進行量表化,進而得出學生的最終分數,這種計分方法更科學,能減少由命題教師決定試題分數值所帶來的分數不等值問題。
4.評分品質檢查
為了保證評分品質,PISA專業協作組織不僅制定了嚴格的評分作息時間(每天工作不超過6小時),還設計了5個品質檢查的環節。首先,試題本被分批整理好,每批試題本上都有流轉單,評分專家要在流轉單上簽名,這一方面能保證評分程式的規範和有序,另一方面也使得評分結果有據可查,促使各評分專家認真評卷,保證品質。其次,每個組的評分組長每天要檢查組內評分專家的評分,並做好記錄,對評分錯誤率較高的評分專家,視需要加強檢查和培訓。第三,對於有疑問、有爭議的試題評分,可提交到各國家或地區PISA中心,甚至提交到ACER總部,協商解決疑問,盡可能保證各國家或地區評分的一致性。第四,每種試題本都抽取100本進行多次評分,用於檢測評分專家之間的一致性以及評分資料的信度。第五,在資料庫提交結束後,國際組織還要另外組織獨立的國際評分組,在每個國家(地區)抽取160名學生的試題本進行評分檢查。
另外,各參與國(地區)都有受各自國家專案經理監督的測試修正組。測試修正組根據國際聯合處和PISA專家制定的指南手冊記錄學生在PISA測試中的得分。經專家審閱後,將最後測試結果上交國際聯合處,再由國際聯合處上交到OECD秘書處。
六、誤差控制
PISA是一個國際性評價專案,由於各國語言、文化、教育體制、學生接受教育的年齡不同等因素,因此要對不同國家的同一年級的學生進行直接考查是不現實的。這就要在技術上作必要的“等值”處理,使之具有最廣泛的可比性。等值處理的關鍵有兩個方面,一是關於參加試測的學生樣本如何抽定的問題,二是對不同地區、不同試題的“換算”處理問題。為此,PISA評價的每個環節全部按照科學的、標準化的程式執行,以確保評價結果的科學性、準確性。
首先,對評價物件的抽樣設計,按照標準化測驗的方法,嚴格執行兩階段分層完全隨機抽樣。為了保證抽樣的可靠性,各參與國家和地區在按要求準備好相應的抽樣框之後,由PISA總部具體實施抽樣,避免了由於抽樣的隨意性而導致樣本的代表性不足,造成誤差。基於大部分國家和地區的學生都在15歲3個月到16歲2個月年齡段完成義務教育,因此,PISA從這部分學生中進行抽樣考查。各成員國家和地區根據OECD的要求確定好抽樣框後,再由PISA總部按計劃實施抽樣,從而避免抽樣的隨意性。
其次,為了保證各參與國(地區)的學生面對的測驗材料的一致性,減少由於翻譯過程中語言理解的原因造成的文字方面的差別,所有需要翻譯成本國文字的測驗材料都必須從兩種語言文本進行翻譯,並把兩種翻譯結果合二為一,使測驗材料保持原有的內容、風格及特點,減少因測驗材料本身造成的誤差。
第三,在評價的實際測驗過程中,採用科學的測驗方法設計測驗內容。測驗內容共包含7小時的題目,題目的不同組合共構成9種不同的測驗,每個學生只需完成2小時的測驗。這種科學的設計使得測驗的效率大大提高。這樣既保證了每位元學生不需要花太長的時間進行考試,又可以保證測試盡可能囊括各個評價領域的主要內容。學生完成2小時的測試後,還要用半小時左右的時間完成調查問卷。所有的調查都是在學校中進行的。
第四,對於開放式題型的評分,PISA規定了詳細的評分標準,並提供了許多參考答案,通過這一系列的措施有效地控制由評分過程造成的誤差。
這些措施,最大限度地控制了測驗過程中的誤差,有力地保證了評價結果的真實性和可靠性。
七、評價報告
測評結束後,OECD秘書處一般會在第二年下半年提供一份詳細的包括PISA全部評估結果的報告。評估報告由大量的圖表及文字說明組成,圖表通常包括各國平均分排名、影響成績的因素和分數相關性等方面。PISA提供的評價結果,不僅包括簡單的成績排序,而且還向各國提供詳盡的分析報告,內容涉及學生成績與性別、學習態度和興趣、家庭背景以及學校人力物力投入的關係,這種評價結果和對結果的解釋,可用來對各國教育品質的現狀進行直接比較。PISA 2009的評估結果報告於2010年12月7日面向全球公佈。
第一章 PISA的基本框架
第一節 PISA的基本理念
一、時代背景
知識經濟的到來,引發了世界範圍的教育改革。如何實現對人才培養品質的有效監控,以引導教育的健康發展,這已成為目前世界各國教育關注的焦點問題。評價一個國家教育的總體品質,評價一所學校的教學狀況,評價一名學生的基本素養,其價值導向是什麼,其評價標準又是什麼,以及通過什麼方式、方法、手段才能科學有效地進行評價與監控,這些都是世界各國教育研究者在新世紀所面臨的共同課題。國際經濟合作與發展組織(Organization for Economic Cooperation and Development...
目錄
第一章 PISA的基本框架
第二章 PISA對閱讀素養的評量
第三章 PISA對數學素養的評量
第四章 PISA對科學素養的評量
第五章 PISA對問題解決能力的評量
第六章 PISA測試結果與啟示
附 錄 PISA的調查問卷
附錄一 PISA 2009學生問卷
附錄二 PISA 2009學校問卷
附錄三 PISA 2009家長問卷
第一章 PISA的基本框架
第二章 PISA對閱讀素養的評量
第三章 PISA對數學素養的評量
第四章 PISA對科學素養的評量
第五章 PISA對問題解決能力的評量
第六章 PISA測試結果與啟示
附 錄 PISA的調查問卷
附錄一 PISA 2009學生問卷
附錄二 PISA 2009學校問卷
附錄三 PISA 2009家長問卷
購物須知
退換貨說明:
會員均享有10天的商品猶豫期(含例假日)。若您欲辦理退換貨,請於取得該商品10日內寄回。
辦理退換貨時,請保持商品全新狀態與完整包裝(商品本身、贈品、贈票、附件、內外包裝、保證書、隨貨文件等)一併寄回。若退回商品無法回復原狀者,可能影響退換貨權利之行使或須負擔部分費用。
訂購本商品前請務必詳閱退換貨原則。