东方亚洲欧a∨人在线观看|欧美亚洲日韩在线播放|日韩欧美精品一区|久久97AV综合

<pre id="08qrv"><delect id="08qrv"></delect></pre>

日記大全 蒲公英文摘 > 日記大全 >

評價中心的結(jié)構(gòu)效度研究:結(jié)構(gòu)效度評價量表

發(fā)布時間:2020-03-03 來源: 日記大全點擊：

　　摘要評價中心雖然具備很高的預(yù)測效度，但其結(jié)構(gòu)效度指標(biāo)卻不太理想，如研究普遍發(fā)現(xiàn)其匯聚效度和區(qū)分效度較低。影響評價中心結(jié)構(gòu)效度的因素眾多，如評分維度因素（數(shù)量和類型）、評價者因素（培訓(xùn)方式和人員類型）、測評方法因素（情景導(dǎo)向特征、特質(zhì)激活潛力、測評活動形式）以及系統(tǒng)的觀察與評價程序。該文從上述因素出發(fā)，綜述了評價中心結(jié)構(gòu)效度的相關(guān)研究，總結(jié)了提高評價中心結(jié)構(gòu)效度的措施，并指出了未來的研究方向。
　　關(guān)鍵詞評價中心，結(jié)構(gòu)效度，匯聚效度，區(qū)分效度。
　　分類號 B849:C93
　　
　　評價中心技術(shù)（assessment center）是一種興起于西方的綜合性人事測評方法，自1952年美國電話電報公司（AT&T）首次使用該技術(shù)以來，評價中心便在各國的企業(yè)組織中迅速傳播，被廣泛應(yīng)用于管理人員尤其是中高層管理者的評價、選拔、培訓(xùn)及發(fā)展領(lǐng)域。
　　作為一種人事測評方法，評價中心的效度是研究者和實際工作者都極為關(guān)注的一個問題。然而，在過去的20多年中，研究者遇到了一個明顯的困境：評價中心雖然具備較好的效標(biāo)關(guān)聯(lián)效度，預(yù)測準(zhǔn)確性很高[1]，但其結(jié)構(gòu)效度(construct validity)指標(biāo)卻不太理想[2,3]。因此，對于評價中心有效性的原因之爭論一直不斷，且至今尚無明確的結(jié)論。對評價中心結(jié)構(gòu)效度問題進(jìn)行深入探討，既在理論上能有效澄清懸疑，又能為實際工作者提供具體指導(dǎo)和建議，有效降低評價中心在設(shè)計、實施及控制上的誤差和變異，提高測評質(zhì)量，更好地為人力資源管理工作服務(wù)。
　　
　　1 評價中心結(jié)構(gòu)效度的概念、指標(biāo)和研究方法
　　
　　在測量學(xué)上，效度指的是一個測驗對其所要測量的理論結(jié)構(gòu)或特質(zhì)測量到什么程度的估計，對效度的檢驗包含了對測量工具的理論構(gòu)想進(jìn)行驗證和利用實證證據(jù)驗證測量工具的效度兩個過程，也就是對結(jié)構(gòu)效度和效標(biāo)關(guān)聯(lián)效度或?qū)嵶C效度的評價過程。
　　結(jié)構(gòu)效度指的是測驗?zāi)苷f明理論所構(gòu)想的結(jié)構(gòu)或特質(zhì)的程度，或者用某種結(jié)構(gòu)或特質(zhì)來解釋測驗分?jǐn)?shù)的恰當(dāng)程度，其著重點是測驗本身、測驗賴以編制起來的心理結(jié)構(gòu)理論和測驗測量到某理論結(jié)構(gòu)或特質(zhì)的能力；而效標(biāo)關(guān)聯(lián)效度可用來了解測驗分?jǐn)?shù)能否有效地預(yù)測或估計某種行為表現(xiàn)，是關(guān)于測驗結(jié)果的一些實際用途的檢驗，它著重于測驗分?jǐn)?shù)是否與效標(biāo)測量有高度的相關(guān)，也就是說，它注重的不是預(yù)測變量，而是效標(biāo)的測量。對效標(biāo)關(guān)聯(lián)效度的研究并不能脫離作為測驗編制基礎(chǔ)的心理結(jié)構(gòu)理論，而恰當(dāng)效標(biāo)的確定也是心理結(jié)構(gòu)理論的問題[4]。
　　任何一個測驗都需要各式各樣的效度證據(jù)，但效度又是由一定的測驗?zāi)康囊?guī)定的，不同的測驗偏重于不同種類的測驗效度。作為一種人事測評方法，評價中心追求實證效度和預(yù)測效度，其意義是顯而易見的，但結(jié)構(gòu)效度也不可忽視，且與前者關(guān)系密切。評價中心若僅有實證效度，而結(jié)構(gòu)效度很差，那么其測量的有效性也值得懷疑[5]。
　　結(jié)構(gòu)效度沒有單一的效度指標(biāo)，要采取多種方法，從多方面搜集資料，才能逐步驗證測驗的結(jié)構(gòu)效度。對評價中心結(jié)構(gòu)效度的研究一般表現(xiàn)為三個層面：（1）匯聚效度(convergent validity)，指的是同一評價維度的評分在不同的測評方法之間的相關(guān)性，例如無領(lǐng)導(dǎo)小組討論、公文筐、演講等不同的測評方法都包含了對“工作組織性”這一維度的評價，該相關(guān)系數(shù)越高，說明匯聚效度越好；（2）區(qū)分效度（discriminant validity），指的是同一測評方法內(nèi)不同測評維度之間的評分的區(qū)分性，也用相關(guān)系數(shù)表示，例如無領(lǐng)導(dǎo)小組討論一般包含對敏感性、工作組織性、問題解決能力、領(lǐng)導(dǎo)能力等不同維度的評價，該相關(guān)越低，說明區(qū)分效度越好；（3）總體評價（overall assessment ratings, OARs），它反映的是對被評價人員的績效的全面性評價，因此除了包含前兩個層面的水平外，總體評價還反映了其它來源的信息，例如同伴評價、人格測量、能力測驗分等。但總的看來，目前對評價中心結(jié)構(gòu)效度的研究多集中于前兩個層面，即：匯聚效度和區(qū)分效度，通過這兩種指標(biāo)能大體上反映評價中心結(jié)構(gòu)效度的優(yōu)劣。
　　對評價中心結(jié)構(gòu)效度的研究一般采用多質(zhì)多法（multitrait-multimethod, MTMM）和驗證性因素分析方法（confirmatory factor analysis, CFA），研究的結(jié)果較為一致：同一測評維度在不同測評方法之間的評分相關(guān)程度較低（低匯聚效度）；而同一測評方法中不同測評維度的評分的相關(guān)程度則較高（低區(qū)分效度）[6]。例如，Sackett和Tuzinski（2001）[3]研究發(fā)現(xiàn)，在典型的評價中心中，同一維度在不同測評方法間評分的平均相關(guān)為0.25，而相同測評方法中不同維度評分的平均相關(guān)卻為0.58。因此有研究者指出，結(jié)構(gòu)效度問題是評價中心研究領(lǐng)域中最大的懸而未決的問題[5]。
　　影響評價中心結(jié)構(gòu)效度的因素眾多，相關(guān)的研究也存在不同的視角和側(cè)面，但從評價中心的基本成分來看，大致表現(xiàn)為評分維度、評價者因素、測評方法、系統(tǒng)的觀察與評價程序這幾個方面。
　　
　　2 評分維度與評價人員因素
　　
　　2.1 評分維度
　　從人事測評的角度而言，人們一般希望能從不同的方面對被評價人員進(jìn)行較為全面的評價，但人的信息加工能力是有限的，評分維度如果過多，就會加重評價人員的信息加工負(fù)擔(dān)，容易造成評分誤差，影響評分效果，因此評價中心應(yīng)該限制評分維度的數(shù)目，維度不宜過多。Gaugler和Thornton (1989)研究[7]發(fā)現(xiàn)，評價人員能在3個評分維度上取得較好的匯聚效度和較高的評分準(zhǔn)確度，而當(dāng)維度增加到6個或9個時，評分效果就明顯下降，但維度的數(shù)目對區(qū)分效度的影響不大。此外，對維度的概念界定也會對評價中心的結(jié)構(gòu)效度產(chǎn)生影響，比如當(dāng)不同的評分維度間的概念區(qū)分性較強時，會取得較高的區(qū)分效度，而當(dāng)維度間的概念區(qū)分性較弱時，則區(qū)分效度較差[6]。
　　另外的問題是：選擇什么類型的維度是合適的？在實踐中，各組織普遍采用的維度較為相似，例如敏感性、主動性、人際關(guān)系、問題解決、溝通能力、領(lǐng)導(dǎo)能力、計劃與組織等，這套維度結(jié)構(gòu)沿用較久、應(yīng)用較廣。Joyce等（1994）曾將這種傳統(tǒng)的評分維度與基于管理工作（如內(nèi)部溝通、績效管理等）的職能結(jié)構(gòu)上的一套評分維度做了對比，發(fā)現(xiàn)基于工作取向的維度也同樣表現(xiàn)出較低的匯聚和區(qū)分效度[8]。雖然根據(jù)不同的測評目標(biāo)來開發(fā)與目標(biāo)崗位相關(guān)更高、聯(lián)系更緊的維度，在一定程度上能提高測評的預(yù)測效度，但到底選擇什么樣的維度能同時取得較好的結(jié)構(gòu)效度和預(yù)測效度呢？未來有必要做更多的研究。
　　除此之外，Klimoski（1993）也提醒說，除了評價中心事先確定的評分維度外，評價人員從自身對目標(biāo)崗位、管理工作及其效果的認(rèn)知中也可能產(chǎn)生一種不同的維度結(jié)構(gòu)，這套維度內(nèi)隱于評價人員的認(rèn)知中，可能間接對評價產(chǎn)生影響[9]。但是否有影響，有何影響，目前還沒有研究來證實。
　　
　　2.2 評價人員培訓(xùn)
　　關(guān)于評價人員培訓(xùn)，研究者更多關(guān)注的是培訓(xùn)的方式與內(nèi)容�？偟膩砜�，對評價人員培訓(xùn)一般有以下幾種方式：（1）以避免評分者效應(yīng)（rating effects）的培訓(xùn)，例如光環(huán)效應(yīng)（halo error）、寬容效應(yīng)（leniency error）；（2）行為觀察法培訓(xùn)（behavior observation training），這種培訓(xùn)方法將重點集中于如何提高行為觀察的可靠性和有效性上，強調(diào)避免觀察誤差，提高觀察的準(zhǔn)確度；（3）績效維度培訓(xùn)（performance dimension training），強調(diào)對評分維度的明確界定和操作化；（4）參照系培訓(xùn)（frame-of-reference training），除了強調(diào)評價人員應(yīng)該對維度有更好的理解之外，參照系培訓(xùn)法還向評價人員提供對被評價人員績效判斷的相同的參照標(biāo)準(zhǔn)，按照這種統(tǒng)一的評分標(biāo)準(zhǔn)來培訓(xùn)評價人員，幫助評價人員在頭腦中建立更一致的認(rèn)知圖式和評分參照系。研究表明，績效維度培訓(xùn)能帶來更好的區(qū)分效度[15]，而相對于其它培訓(xùn)方法，參照系培訓(xùn)能帶來最高的評價準(zhǔn)確度[16]。在實踐中，絕大多數(shù)的評價中心的對評價人員的培訓(xùn)過程是對以上四種方式的綜合運用，從而提高行為觀察的效果。
　　
　　2.3 評價人員類型
　　由于程序運作的復(fù)雜性和很高的技術(shù)要求，評價中心成為一種比較依賴測評專家的人事測評方法，因此，由什么樣的人員來擔(dān)任測評人員便是一個重要的問題。研究者很早就開始注意到評價人員類型對評價中心的結(jié)構(gòu)效度的影響，例如，研究發(fā)現(xiàn)，作為評價人員的心理學(xué)家要比管理者或工作專家在評分上取得更好的區(qū)分效度[10,11]。不過，這兩種類型的評價人員各有優(yōu)劣之處，這主要體現(xiàn)在心理學(xué)家更擅長于評價個體較穩(wěn)定的特質(zhì)和潛力，而管理者和工作專家則更精于對實際工作能力的判斷[12,13]。總的來看，相對于評價人員的出身背景而言，評價人員的評價經(jīng)驗則顯得更為重要，嘗試由不同出身背景的評價人員互相組合搭配，也許能提高評價中心的結(jié)構(gòu)效度，但這也需要進(jìn)一步的證實。
　　
　　3 測評方法
　　
　　3.1 測評情景導(dǎo)向特征
　　80年代以來，當(dāng)人們發(fā)現(xiàn)評價中心在結(jié)構(gòu)效度上存在缺陷時，便開始在評價中心的程序和設(shè)計上作了許多改進(jìn)。這些努力雖能部分地提高維度評價上的匯聚和區(qū)分效度，但在同一測評活動中，對不同維度的評分間的相關(guān)仍然要明顯高于不同測評活動中對相同維度的評分間的相關(guān)，也就是說，測評活動的影響效果仍然要明顯大于測評維度的影響效果。
　　對這一現(xiàn)象如何解釋呢？Lance等認(rèn)為，在過去的研究中普遍發(fā)現(xiàn)的測評活動的顯著影響，恰好反映了被評價人員的績效表現(xiàn)是以測評情景為導(dǎo)向的（situational specificity），而非方法變異（method bias）[17]。也就是說，評價中心結(jié)構(gòu)效度的缺陷不應(yīng)歸因于程序和設(shè)計上的局限，影響評價中心測評結(jié)果的因素是測評情景或方法，在不同的測評活動中被評價人員的績效表現(xiàn)是不一致的。而Lance等在后來的進(jìn)一步研究中支持了情景導(dǎo)向的假設(shè)[18]。
　　國內(nèi)研究者吳志明等（2001）采用多質(zhì)多法和驗證性因素分析，同樣證明評價中心的評分中測評情景導(dǎo)向性[19]。為什么影響評價中心評分的主要因素是測評情景而不是測評維度呢？吳志明等從四方面討論了其原因：（1）光環(huán)效應(yīng)，由于評價中心中可觀測行為的缺乏和評價人員信息加工能力的局限，導(dǎo)致被評價者在某一維度上的表現(xiàn)出色或表現(xiàn)欠佳而在其它維度上同樣得高分或得低分；（2）測評情景效應(yīng)，由于不同的測評情景中表現(xiàn)測評維度所代表的行為的機會不同，還由于練習(xí)效應(yīng)、動機變化等變量的影響，因此在不同的測評方法中，被評價者的績效表現(xiàn)是不穩(wěn)定的；（3）評定的過程，評價中心的評價過程有著十分強的組織結(jié)構(gòu)性，被評價人員的行為往往被清晰的劃分為一些獨立的行為樣本，評價人員被迫基于測評情景對這些行為進(jìn)行分類，因而會損害匯聚效度系數(shù)；（4）測評維度的設(shè)計，一方面同一測評維度在不同測評情景中雖然表面上名稱相同但內(nèi)涵卻不同，另一方面同一測評情景中的不同測評維度難以區(qū)分，獨立性較低，相關(guān)較高，導(dǎo)致區(qū)分效度和匯聚效度較低。
　　評價中心測評情景導(dǎo)向的特征表明，評價人員在評分時是按照被評價人員在測評情景中的表現(xiàn)進(jìn)行評分的，而不是按照個人的穩(wěn)定特征進(jìn)行的，評價中心是以測評方法來保證其有效性的，不同的測評方法對評價中心的測評結(jié)果影響很大。同樣也可以說，評價中心的結(jié)構(gòu)效度不是研究者最初所設(shè)想或期待的那樣，即評價中心不是被用來評價被評價人員的績效維度，而是為被評價人員提供展現(xiàn)其績效能力機會的活動[2]。故Lovler等（2002）也指出，未來用于提高評價中心結(jié)構(gòu)效度的努力，如擴(kuò)大維度（代表“特質(zhì)”）的影響效果和減小活動（代表“方法”）的效果，很有可能如同過去的20多年一樣是徒勞無功的[18]。
　　
　　3.2 測評活動中的特質(zhì)激活潛力
　　如上所述，在不同的測評情景中，被評價者表現(xiàn)測評維度所代表的行為的機會是不同的。Haaland和Christiansen（2002）運用特質(zhì)激活理論（trait- activation theory）對評價中心的匯聚效度作了深入探討[20]。特質(zhì)激活潛力（trait-activation potential）指的是在一個特定的情景中能觀察到個體與特質(zhì)相關(guān)的行為表現(xiàn)的差異的能力[21]。在一個情景中能觀察到與特質(zhì)相關(guān)的行為差異的可能性越大，該情景的特質(zhì)激活潛力就越高。而在情景中能否有機會觀察到與給定的特質(zhì)相關(guān)行為主要取決于情景的強度以及情景與特質(zhì)的相關(guān)度。
　　按照強度可將情景分為強情景和弱情景。所謂強情景（strong situations）指的是在該情景下，對個體行為的要求較為明確、具體和統(tǒng)一，個體對情景的反應(yīng)很少存在差異。而在弱情景（weak situations）下與之相反，對個體行為表現(xiàn)的要求并不十分明確，個體對情景的認(rèn)知、反應(yīng)及行為結(jié)果上傾向于存在差異。強情景容易將個體的一些重要特質(zhì)模糊化，因而在行為觀察上差異較小。而在弱情景下行為觀察存在較大的變異，這樣，個體對情景的反應(yīng)更能由個體差異變量和穩(wěn)定特質(zhì)來預(yù)測。只有通過相對弱的情景，跨情景中的行為觀察才能有高相關(guān)，而強情景則會導(dǎo)致相關(guān)被削弱，也沒有什么實際意義。影響特質(zhì)激活潛力的另外一個因素是情景與感興趣的特質(zhì)的相關(guān)度，相關(guān)程度越高，則特質(zhì)激活潛力越大，反之就越小。
　　Haaland和Christiansen運用跨度為6年（1993~1999）的數(shù)據(jù)，采用了5項測評活動（無領(lǐng)導(dǎo)小組討論、計劃工作角色扮演、員工輔導(dǎo)的角色扮演、公文筐以及會議的口頭陳述）和5種測評維度（敏感性、下屬輔導(dǎo)技能、問題解決能力、工作組織技能以及壓力忍受性），并用紙筆人格測驗作為對特質(zhì)激活潛力判斷的操作處理。結(jié)果表明：當(dāng)評價中心的測評活動具備較高的特質(zhì)激活潛力時，相關(guān)維度上評價之間的匯聚效度會更好。并且，當(dāng)活動出現(xiàn)如下情景特征時，能獲得較好的匯聚效度：①、情景活動不能太過強以至于隱藏個體的差異；②、擁有與特質(zhì)行為相關(guān)的暗示；③、測評活動應(yīng)具備能激活與成功績效相關(guān)的特質(zhì)的能力。
　　
　　3.3 測評的活動形式
　　在實踐中，有些測評活動能喚起與眾多維度相關(guān)的行為，而有些活動則顯得更為“純凈”，只與少數(shù)維度相關(guān)。因此，如何選擇和設(shè)計測評活動便是一個問題。除此之外，一些經(jīng)受過培訓(xùn)的角色扮演者經(jīng)常被用于喚起被評價人員與維度相關(guān)的行為，以降低一些意外的活動變異。比如有研究發(fā)現(xiàn)，當(dāng)角色扮演者能積極地扮演其角色時，會提高匯聚效度和區(qū)分效度；而較消極被動時，就無法喚起與維度相關(guān)的行為，則結(jié)構(gòu)效度也會降低[6]。
　　最后，在測評活動的指導(dǎo)過程中，Kleinmann等(1996)發(fā)現(xiàn)，如果有意識地向被評價人員提示在活動中會測評哪些維度，哪些行為與何種維度相關(guān)，被評價者將更可能引導(dǎo)自身向維度靠攏，其行為表現(xiàn)更為清晰和一致，評價人員也能更好地區(qū)分維度與行為間的差異，評分也會表現(xiàn)出較好的匯聚效度和區(qū)分效度[22]。
　　
　　4 系統(tǒng)的觀察與評價程序
　　
　　4.1 評價人員的認(rèn)知負(fù)荷
　　眾所周知，對被評價人員的行為表現(xiàn)進(jìn)行觀察和評價是一項有很高要求的認(rèn)知性任務(wù)。從信息加工過程來看，這一任務(wù)的過程表現(xiàn)為以下階段：首先，在每一項測評活動中，評價人員觀察被評價人員的行為，尤其要將注意力投入到與維度相關(guān)的那些行為上；然后，評價人員將這些行為信息進(jìn)行解碼，這一過程較為復(fù)雜，評價人員必須投入較多的思維活動；接著，這些行為信息被儲存到記憶中以待后來的使用，這通常發(fā)生在測評活動結(jié)束的時刻；當(dāng)作出評價的時候，評價人員必須重新提取記憶中的信息，并加以綜合。
　　人們注意到，評價人員的信息加工負(fù)荷是相當(dāng)大的，因此他們只能選擇性的參加一定比例的測評行為活動，其結(jié)果是有可能產(chǎn)生評分誤差。例如，在評價人員的觀察和評價過程中，通常有一個雙重任務(wù)：觀察和記錄。但相對于評價人員已有的認(rèn)知加工能力而言，當(dāng)評價人員的注意力由活動轉(zhuǎn)移到記錄本上時，一些重要的行為信息便有被忽略的可能，或者不適當(dāng)?shù)貙⑿袨檫M(jìn)行歸類[23]。而且在實踐中，評價人員有時不僅僅是被動的觀察者，同時也是一些測評活動的主動參與者，在活動中扮演著一定的角色，這種角色扮演也會限制對行為的同時記錄[24]。這樣就可能帶來較低的評價人員信度、評分準(zhǔn)確度和結(jié)構(gòu)效度。
　　Kolk等（2002）曾考察了兩種觀察與記錄方式的效果[13]：一是在活動進(jìn)行中同時進(jìn)行觀察和記錄；二是評價人員在觀察過程中不做記錄，但將記錄行為延遲到每一種測評活動結(jié)束的時刻立即進(jìn)行。研究比較了這兩種方法的三種效果變量：評價人員信度、光環(huán)效應(yīng)及準(zhǔn)確度。但結(jié)果僅發(fā)現(xiàn)，有經(jīng)驗的評價人員要比無經(jīng)驗的評價人員產(chǎn)生更顯著的高評分準(zhǔn)確度，這一點與以前的研究一致，但卻沒有找到明顯的證據(jù)支持哪一種方法在三種效果變量上有更好的效果。顯然，如何降低認(rèn)知負(fù)荷，目前仍是一個難題，未來應(yīng)更直接地考察評價人員認(rèn)知負(fù)荷的來源。
　　
　　4.2 觀察和評價方法
　　在評價中心中，一般存在3種觀察和評價方法：
　　第一種是傳統(tǒng)的觀察與評價方法。傳統(tǒng)方法由AT&T首創(chuàng)，它包含4個相互獨立的階段：在測評活動中評價人員觀察被評價人員的行為并同時做記錄；然后，評價人員將所記錄的信息歸類到不同的行為維度中；接著，評價人員對每一個維度作出一個定量的評價；最后，不同的評價人員一起對評價作出重新評估。
　　第二種方法是行為列表法（the behavioural checklist method）。和傳統(tǒng)方法一樣，評價人員首先需要記錄正在發(fā)生的行為，但隨后評價人員會使用一種行為列表，在列表中將每一種行為發(fā)生的頻數(shù)加以總結(jié)。這一附加的步驟是為了減低行為分類時的認(rèn)知負(fù)荷。行為列表法雖然有利于評價人員對觀察行為進(jìn)行解碼及回憶，但其對結(jié)構(gòu)效度的影響如何，研究的結(jié)論卻不太一致。
　　第三種方法是行為編碼方法（the behavioural coding approach）。這種方法事先對每一種評價維度有十分明確的、統(tǒng)一的界定，并在觀察表格上列舉出典型的積極和消極的行為例證，要求評價人員重點關(guān)注這些維度和行為，而反對評價人員個人主義式的解釋。行為編碼法的好處是：首先，標(biāo)準(zhǔn)化程度較高；其次，因為不必對行為的描述進(jìn)行詳細(xì)記錄，評價人員經(jīng)受的知覺干擾可能更少；另外，評價人員的注意力能有效集中于維度上，將觀察行為與明晰的認(rèn)知分類進(jìn)行有效聯(lián)結(jié)，有助于評價人員的長期記憶、回憶和解釋。但行為編碼法的潛在缺點是，評價人員的注意力完全集中于事先提供的維度結(jié)構(gòu)上，有可能導(dǎo)致無法觀察到或忽略維度以外的其它行為特征，這種影響的大小則依賴于所提供的維度典型行為的范圍與合適性程度，以及對評價人員的說明和指導(dǎo)。
　　哪一種觀察與評價方法更有效呢？Hennessy等（1998）[23]選取30個英國組織的評價人員，運用實驗方法，考察了上述三種方法的效果，結(jié)果發(fā)現(xiàn)：三種方法在評價準(zhǔn)確度上的效果差別不大；相對于傳統(tǒng)方法，行為列表法和行為編碼法能顯著地降低評價人員之間的偏差，但研究并沒有發(fā)現(xiàn)這兩種方法能提高區(qū)分效度的明顯證據(jù)；在對待各種方法的態(tài)度上，傳統(tǒng)的方法在大多數(shù)的組織中仍得到采用，行為編碼法受到了廣泛的支持和接受，而使用者不太愿意建議采用行為列表法。
　　另外，在實踐中很多評價中心多采用活動內(nèi)評價方法（within-exercise rating method），即在每一種測評活動結(jié)束后完成對所有維度的一次評價，但這樣會產(chǎn)生共同方法效應(yīng)（common method effects）。也有些評價中心采用維度內(nèi)評價方法（within- dimension rating method），即在所有的測評活動結(jié)束后再進(jìn)行維度的評價，但這樣也能產(chǎn)生共同評價者效應(yīng)（common rater effects）。有研究者指出，相對于活動內(nèi)設(shè)計方法，維度內(nèi)設(shè)計方法能產(chǎn)生較高的匯聚效度和區(qū)分效度 [25,3]。Kolk等（2001）設(shè)計出每一名評價人員只在一種測評活動中對一種維度作出評價的評分策略[18]，這種策略要求具備“維度數(shù)×測評活動數(shù)”的乘積的數(shù)量的評價人員，但維度評價在跨維度和跨活動中是獨立的，也就能消除所有的共同方法效應(yīng)和共同評價者效應(yīng)。不過，這種方法的缺陷是成本太高，一般的組織很難實施。
　　
　　5 提高評價中心結(jié)構(gòu)效度的措施與研究總結(jié)
　　
　　Lievens（1998）對1976至1997年間的21項關(guān)于評價中心結(jié)構(gòu)效度的研究進(jìn)行了元分析[6]，對如何提高評價中心結(jié)構(gòu)效度的措施進(jìn)行了總結(jié)（見表1），值得實踐者參考和借鑒。
　　表1中，對于評價中心的觀察與評價程序的設(shè)計，Andres和Kleinmann（1993）所推薦的原則是：①每一名評價人員只對每一名被評價人員進(jìn)行一次觀察；②被評價人員在活動中碰面的機會最低為2次，最高4次；③每一對評價人員至少碰面2次，最高4次。研究者認(rèn)為這套原則能有效降低評價過程中的信息負(fù)載、對照效應(yīng)、光環(huán)效應(yīng)、移情效應(yīng)的負(fù)面影響，提高評分效度[6]。
　　綜上所述，影響評價中心結(jié)構(gòu)效度的因素眾多，相關(guān)研究的結(jié)論也不太一致，未來也有必要做進(jìn)一步地研究，但總的看來，可以歸結(jié)為以下幾點：
　　首先，在評分維度的數(shù)目上，目前的研究結(jié)論基本一致，維度的數(shù)目不宜過多，但在維度的選擇和界定上應(yīng)慎重，一個可行的原則是與實際工作相關(guān)聯(lián)。
　　第二，對于心理學(xué)家應(yīng)該在評價者團(tuán)隊中扮演什么角色，還存在分歧，但更多的人認(rèn)識到心理學(xué)家和管理者作為評價人員各有優(yōu)劣，筆者認(rèn)為，評價者的評價經(jīng)驗相對于其出身而言更為重要，二者若能取長補短則更為理想，另外，對評價者培訓(xùn)應(yīng)重點考慮參照系培訓(xùn)方式，致力于提高行為觀察的效果。
　　第三，影響評價中心結(jié)構(gòu)效度的因素雖然很多，在程序和設(shè)計上的努力雖能部分提高其結(jié)構(gòu)效度，但評價中心以測評情景為導(dǎo)向的特征表明，評價中心是以測評方法來保證其有效性的，相對于維度而言，測評方法對測評結(jié)果的影響更大，因此實踐者應(yīng)該十分注重對測評方法及活動的選擇與設(shè)計，避免方法效應(yīng)，應(yīng)采取各種措施積極地喚起被評價者的與特質(zhì)和維度相關(guān)的行為。
　　
　　第四，應(yīng)設(shè)法降低測評中評價人員的認(rèn)知負(fù)荷，如采用行為列表或行為編碼方法，提高觀察與評價的準(zhǔn)確度，為了提高結(jié)構(gòu)效度，實踐者也應(yīng)該更多地采用維度內(nèi)評價方法。
　　最后，如眾多的研究者所指出的那樣，在以往的研究中，對于評價中心的結(jié)構(gòu)效度和效標(biāo)關(guān)聯(lián)效度的研究往往是分開進(jìn)行的，未來的研究需要將這兩者結(jié)合起來，同時探討它們之間的關(guān)系[26]。例如，具有良好結(jié)構(gòu)效度的評價中心是否同樣具有較好的效標(biāo)關(guān)聯(lián)效度？同時，具有良好的效標(biāo)關(guān)聯(lián)效度的評價中心其結(jié)構(gòu)效度又如何？這一問題恰好涉及評價中心的本質(zhì)與核心，應(yīng)成為未來研究的重點方向。
　　
　　參考文獻(xiàn)
　　[1] Gaugler B B, Rosenthal D B, Thornton G C, Bentson C. Meta-analysis of Assessment Center Validity. Journal of Applied Psychology, 1987, 72: 493~511
　　[2] Lievens F, Klimoski R J. Understanding the assessment center process: Where are we now? International Review of Industrial and Organizational Psychology, 2001, 16: 246~286
　　[3] Sackett P R, Tuzinski K. The role of dimensions and exercises in assessment center judgments. In M. London (Ed.). How people evaluate others in organizations. Mahwah, NJ: LEA, 2001. 111~129
　　[4] 金瑜. 心理測量. 上海:華東師范大學(xué)出版社, 2001. 209~230
　　[5] Collins J M, Schmidt F L, Sanchez-Ku M, Thomas L, McDaniel M A, Le H. Can basic individual differences shed light on the construct meaning of assessment center evaluations? International Journal of selection and assessment, 2003, 11(1): 17~29
　　[6] Lievens F. Factors which improve the construct validity of assessment centers: A review. International Journal of Selection and Assessment, 1998, 6(3): 141~152
　　[7] Gaugler B B, Thornton G. C. Number of assessment center dimensions as a determinant of assessor accuracy. Journal of Applied Psychology, 1989, 74: 611~618
　　[8] Joyce L W, Thayer P W, Pond S B. Managerial functions: An alternative to traditional assessment center dimensions? Personnel Psychology, 1994, 47: 109~121
　　[9] Klimoski R J. Predictor constructs and their measurement. In: Schmitt N, Borman W C. (eds.) Personnel Selection in Organizations. San Francisco, Jossey-Bass, 1993. 99~135
　　[10] Gaugler B B, Rosenthal D B, Thornton G. C, Bentson C. Meta-analysis of assessment center validity. Journal of Applied Psychology, 1987, 72: 493~511
　　[11] Sagie A, Magnezy R. Assessor type, number of distinguishable categories, and assessment center construct validity. Journal of Occupational and Organizational Psychology, 1997, 70: 103~108
　　[12] Tziner A, Ronen S，Hacohen, D. A four-year validation study of an assessment center in a financial corporation. Journal of Organizational Behaviour, 1993, 14: 225~237
　　[13] Kolk N J, Born M P, van der Flier H，Olman J M. Assessment center procedures: Cognitive load during the observation phase. International Journal of Selection and Assessment, 2002, 10(4): 271~278
　　[14] Lievens F. Assessor training strategies and their effects on accuracy, inter-rater reliability and discriminant validity. Journal of Applied Psychology, 2001, 86: 255~264
　　[15] Woehr D J. Performance dimension accessibility: Implications for rating accuracy. Journal of Organizational Behavior, 1992, 13: 357~367
　　[16] Woehr D J，Huffcutt A I. Rater training for performance appraisal: A quantitative review. Journal of Occupational and Organisational Psychology, 1994, 67: 189~205
　　[17] Lance C E, Newbolt W H, Gatewood R D, Foster M R, French N R，Smith D E. Assessment center exercise factors represent cross-situational specificity, not method bias. Human Performance, 2000, 13: 323~353
　　[18] Lance C E, Foster M R, Gentry W A，Thoresen J D. Assessor cognitive processes in an operational assessment center. Journal of Applied Psychology, 2004, 89(1): 22~35
　　[19] 吳志明, 張厚粲. 評價中心的構(gòu)想效度和結(jié)構(gòu)模型. 心理學(xué)報, 2001, 33(4): 372~378
　　[20] Haaland S, Christiansen N D. Implications of trait-activation theory for evaluating the construct validity of assessment center ratings. Personnel Psychology, 2002, 55(1): 137~163
　　[21] Tett R P, Guterman H A. Situation trait relevance, trait expression, and cross-situational consistency: Testing a principle of trait-activation. Journal of Research in Personality, 2000, 34: 397~423
　　[22] Kleinmann M, Kuptsch C，Koller O. Transparences: A necessary requirement for the construct validity of assessment centers. Applied Psychology: An international Review, 1996, 45: 67~84
　　[23] Hennessey J, Mabey B, Warr P. Assessment centre observation procedures: An experimental comparison of traditional, checklist and coding methods. International Journal of Selection and Assessment, 1998, 6(4): 222~231
　　[24] Zedeck S. A process analysis of the assessment center method. Research in Organizational Behaviour, 1986, 8: 259~296
　　[25] Sackett P R, Dreher G F. Constructs and assessment center dimensions: Some troubling empirical findings. Journal of Applied Psychology, 1982, 80: 664~670
　　[26] 王小華, 車宏生. 評價中心的評分維度和評分效果. 心理科學(xué)進(jìn)展, 2004, 12(4): 601~607

相關(guān)熱詞搜索：評價結(jié)構(gòu) 研究評價中心的結(jié)構(gòu)效度研究中國科學(xué)評價研究中心南大社科研究評價中心

熱點文章閱讀

版權(quán)所有 蒲公英文摘 smilezhuce.com