第12章第8章避免爰因斯坦綜合症——聚合性證據的重要性

對“偽心理學”說不 基思·斯坦诺维奇 17832字 2018-03-18

“生物學實驗揭開生命的奧秘！”、“思維控制上的新突破！”、“加利福尼亞科學家發現了延緩死亡的方法！”——如你所見，想仿製一條充斥於小報和電子媒體頭版頭條的“突破性”新聞簡直易如反掌。由於部分缺乏責任感的媒體總是定期炮製這類“頭版頭條”，難怪大多數科學家都建議公眾要以懷疑的態度來對待此類新聞。但是，本章的目的不僅僅在於反對誇大事實、以訛傳訛的做法，也不僅僅提醒人們在評估科學進展報告時必須審慎地考察其來源，我們還想提出一種比前面章節中提到的理念都更為綜合、全面的科學進步觀。為此，我們將會詳細闡述曾在第1章中介紹過的系統實證主義和公共知識。媒體上這類所謂的“突破性”頭條新聞，在很大程度上誤導了公眾對於心理學和其他科學的認識。一個特別典型的誤解就是，它們讓公眾以為，某一科學研究領域中的所有問題都能通過某個關鍵實驗得到解決，或者是某一個重要的靈感成就了理論的進步，並徹底顛覆了先前眾多研究者累積的全部知識。這種科學進步觀非常符合新聞媒體炒作的胃口，在媒體的運作方式裡，對歷史的追溯就是呈現支離破碎、缺乏連貫的小'型事件。對於好萊塢娛樂業來說，這也不失為一種頗為便利的模式，那裡，事件必須有一個開頭和圓滿的結尾，含糊的東西都被理得清清楚楚。然而，這只是對科學進步的一種歪曲，如果對此信以為真，就會導致關於科學進步的錯誤觀念，並削弱人們在某一問題上評估科學知識的能力。在本章中，我們將會討論科學的兩個原則——關聯性原則和聚合性證據原則，用這些原則描述科學發展，將比“躍進模式”更為準確。在否定所有科學進步的“飛躍”或者關鍵實驗模式的有效性的同時，我們不是說這種關鍵實驗和理論發展模式從未發生過，相反，科學歷史上一些著名案例表明這種模式的確出現過。愛因斯坦提出“相對論”就是迄今為止最著名的一個例子，至此，一系列非凡的理論靈感重新定義了時間、空間和物質等基本概念。然而，愛因斯坦的成就如豐碑般矗立，讓這種科學發展模式統治了公眾的內心。這種統治是持久的，因為它與媒體報導大部分新聞事件時所採用的隱含“腳本”高度吻合。人類歷史上，像相對論那樣遭受了那麼多的胡言亂語和不實推論的理論並不多見（不，愛因斯坦沒有證明一切都是相對的”——見Holton, 1996; Randall, 2005）。當然，我們的目的不是去批駁這些謬論，而是為了後面討論和評估心理學中的理論做鋪墊。在愛因斯坦的理論中，那些被重新定義的關於物理世界的概念是如此地基礎，以至於那些通俗讀物經常將其等同於藝術領域裡的概念變化（一個二流詩人經過重新評估，搖身一變成了天才；一個藝術流派被斷言滅亡）。這種做法忽視了概念變化在藝術和科學中最根本的差別。科學中的概念變化遵從關聯性原則，而這一原則在藝術中並不存在，或至少說是極為罕見的（見Bronowski, 1956, 1977; Dobzhansky, 1973）。就是說，一個新的科學理論，必須與先前已確立的實證事實建立關聯。新的科學理論不僅僅要解釋新的事實，還要兼容舊的事實，這樣才會被認為是一個真正的理論進步。新的理論可以以一種迥然不同的方式來解釋舊的證據，但是它必須能解釋得通。這些要求保證了科學在原有的基礎上持續進步。除非理論解釋效力的範圍被拓寬了，否則真正的進步是不會發生的。如果一個新的理論解釋了一些新的現象，但是沒有解釋大部分舊的事實，那它將不會被認為是對於舊的理論的全面超越，因此不會立即取代那些舊理論，而新理論和舊理論將會以競爭性的面貌並存，直到有一個能整合二者的新理論出現。無論愛因斯坦理論中的那些新概念是多麼地令人震驚（鐘錶變慢、質量會隨速度增加等等），但它們都遵從關聯性原則。在宣告牛頓力學的滯後性的同時，愛因斯坦的理論沒有否定那些以牛頓觀點為基礎的運動事實，或者是認定其毫無意義。相反，在速度較低的情況下，這兩種理論做出了本質上相同的預測。愛因斯坦理論的高明之處在於，它能夠解釋更為廣泛的新現象（有時是令人吃驚的），而這些是牛頓力學所做不到的。因此，即使是愛因斯坦理論這個在科學歷史上最驚人的、基礎性的概念重構，也依舊遵循著關聯性原則。科學發展的“躍進式”模式——我們可以稱之為愛因斯坦綜合症——讓我們誤入歧途，以為新的發現必定違反關聯性原則。這一觀念很危險，因為如果捨棄關聯性原則，最大的受益者將是那些偽科學和偽理論的販賣者。這些理論之所以受到青睞和關注，就是因為它們總被說成是“全新的”。 “畢竟，相對論在它所在的時代是新生事物，對吧？”這句話經常被用做一種說辭，以證明某種新鮮玩意兒是正確的。當然，在這個偽科學家虎視眈眈的領域裡，先前積累的事實數據看上去似乎是個巨大的絆腳石。然而事實上，這塊絆腳石也無法阻擋這些偽科學家，這是因為他們有兩種強有力的伎倆來化解這一麻煩。一種伎倆我們之前已經討論過（見第2章），就是解釋數據前先將這個理論變得不可證偽，這樣就令先前的數據毫無用處了。第二種伎倆是宣稱先前的數據與他們的主題無關，因而不予考慮。為了實現“不予考慮”的結果，他們通常強調新理論呈現出“前所未有”的新穎性。類似“關於現實的全新觀念”和“前所未有”這樣的語句被頻頻使用。但實際上，真正的花招還在後面。 “新理論”注定如此具有突破性，以至於源於其他理論測試的實驗證據都被宣稱是與之不相關的。只有能被新理論的框架所兼容的數據才會被考慮，也就是說，關聯性原則被完全破壞了。顯然，這個理論是如此之新，以至於他們可以理直氣壯地說：與之關聯的實證證據尚不存在呢。如此這般，你就擁有了一個適宜偽科學發展的優質土壤：舊的、“不相關”的數據灰飛煙滅，新的相關數據尚不存在。這種伎倆很容易得逞，因為愛因斯坦綜合症蒙蔽了關聯性原則。而頗具諷刺意味的是，關聯性原則的重要性就是由愛因斯坦理論本身所論證的。加利福尼亞古生物學者凱文·帕迪安（Kevin Padian）給出了另外一個例子，說明當人們無法意識到關聯性原則的重要性時，會如何誤解科學的本質。談到堪薩斯州學校董事會將進化論從學生的必修課中刪除的決定時，帕迪安指出：“我們在談論有關'科學如何被整合'的一個誤解。那種認為可以拋棄一部分科學——特別是像進化論這樣一個可以把整個生物學串聯起來的核心理論——並認為它沒有其他關聯的想法，實在是太荒唐了”（Carpenter, 1999, p.117）。生物哲學家邁克爾·魯斯（Michael Ruse, 1999）指出，進化論與許多獨立的科學領域都呈現出關聯性，例如古生物學、胚胎學、形態學、生物地理學、神經系統科學等等。同樣，赫門（Shermer, 1997）指出，“如果宇宙和地球只有一萬年的歷史，那麼宇宙學、天文學、物理學、化學、地質學、古生物學、古人類學以及關於早期人類歷史的科學都將是錯誤的”（p.143）。著名的科學作家和考古生物學家史蒂文·古爾德（Stephen J.Gould）贊同這一觀點，“教生物學不教進化論，就像教授英語不教英語語法一樣”（Wright, 1999, p.56）。魯斯（1999）講述了一個例子來描述達爾文如何使用關聯性原則，並捨棄了某個與其他學科之間缺乏必要關聯性的新理論。當時達爾文想探尋一種能與他的自然選擇理論相匹配的遺傳機制，為此他試圖去建立一個所謂“泛生論”的理論。 “身體的各部位都會產生一些小的胚芽，這樣胚芽在體內循，並在性器官處聚集，從而傳給下一代”（p.64）。一個問題是，這個理論和細胞學說並不一致。第二個問題是達爾文沒有解釋這些胚芽是怎樣被運送的，因為輸血試驗已經證明胚芽不能通過血液傳輸。基於這兩點以及其他一些原因，泛生論在科學陣營裡被淘汰出局，“因為它與生物學的其他領域不相兼容”（p.64）。同樣的情況也適用於心理學，哲學家馬里奧·邦格（Mario Bimge, 1983）已經指出，認知心理學如果一開始就否定經典條件反射和操作性條件反射，那麼它將無法在心理學中立足，因為它無法兼容行為科學中的其他知識。回憶第6章中對“輔助溝通療法”的討論，它之所以不能“治療”自閉症語言障礙，是因為它打破了關聯性原則——如果治療有效，它將會要求我們重建神經病學、遺傳學和認知心理學領域內的知識。這一假設性的療法與科學中的其他知識沒有任何關聯。同樣，神創論對進化論的反對也是如此，神創論在科學上沒有遵守任何關聯性原則。相反，進化論跟其他科學有著密不可分的關聯。如生物學家西恩·卡羅爾（Sean Carroll, 2005）所說，“進化論不僅僅是一個生物學主題，它還是這一學科的基礎。生物學沒有進化論就像物理學沒有重力學說一樣”。（p.52）有這樣一個來自心理學的例子。假設有兩種療法被開發出來，用於幫助有嚴重閱讀困難的孩子緩解其問題。兩種療法都沒有經過實證性的檢驗。第一種，療法A是一個訓練程序，目的是在音位水平上促進兒童對語言片段的認知。第二種，療法B通過讓孩子蒙上眼睛走平衡木以訓練前庭器官的感受性。療法A和療法B在一個方面上是一致的——它們的效果都沒有經過直接的實證檢驗，二者反響都不好。然而，其中一種療法在關聯性原則方面是佔據優勢的。療法A與研究文獻中的廣泛共識具有一致性，在這些研究文獻中提到，具有嚴重閱讀困難的孩子受到阻礙，是因為孩子還沒有發展出足夠的對於語言片段結構的認知（Snowling & Hulme, 2005; Vellutino et al., 2004）。療法B沒有和任何相應的學術共識發生關聯。這種關聯性的差異預示療法A是一個更好的選擇，即使二者都還沒有經過直接的檢驗。這種把愛因斯坦式的革新視為科學典型的傾向，誘使我們誤以為所有科學進步靠的都是重大飛躍。問題就在於，人們傾向於將這些例子泛化成一種觀念，認為科學進步理所應當是這樣產生的。事實上，很多科學領域的進步靠的都不是某一個突然的突破，而是由一系列構不成重大影響的停頓及前進之間的反复所組成的。科學工作的不確定性是大部分公眾所意識不到的。科學實驗很少能完全確定某個問題，或支持某一理論從而排除其他理論。新的理論也很少能夠全面超越所有先前存在的相互競爭的概念體系。很多問題的確定並不像科學電影裡所描繪的那樣，由一個關鍵實驗所決定，而是要等到科學界逐漸開始有了共識，認為支持某種理論的證據比支持其他任何理論的證據要有力得多。科學家所評估的證據不是來自於某個設計得異常完美的實驗的數據，與之相反，科學家往往需要去評估來自幾十篇實驗論文的數據，這些實驗各有瑕疵，但都能提供部分答案。科學發展的這種漸進模式受到阻礙，正是因為愛因斯坦綜合症在公眾中造成了一種思維定勢，認為所有科學都和物理學一樣，因為對於物理學來說，科學進步的躍進模式或許是最適用的。想想遺傳學和分子生物學在過去一個世紀中的突飛猛進。這些進步的產生不是因為一個愛因斯坦式的偉人在關鍵時刻現身，然後搞定了一切。相反，數百個存在瑕疵的實驗產生出來的數十種靈感和洞見，促成了現代生物學的整合。這些進步的發生，憑藉的不是革命性地重構一些重大概念，而是幾種都能站得住腳的不同解釋進行長期與反复的交鋒和對峙。經過十幾年沒有定論的實驗、無數次的理論構思、爭辯與批判，科學家們終於弄明白了基因到底是由蛋白質還是由核酸組成的。他們達成新的共識，但不是通過一次躍進式的改變。原子核的發現者恩斯特·盧瑟福強調了關聯性原則的重要性，“科學家不能僅僅依靠一個人的觀點，而是要依靠千萬人的智慧”（Holton & Roller, 1958, p.166）盧瑟福的觀點強調了另一種區分科學與偽科學的方法。科學總是遵循關聯性原則，其特點在於眾多個體的參與，而對這些個體的貢獻進行評判的標準，是看它在多大程度上加深了我們對自然界的了解。沒有哪個單獨的個體能夠依靠其特殊地位來主導討論。當然，在第1章，我們已經討論過科學的這種公共性，相比之下，偽科學經常認為特定的權威和研究者才有接近真理的“特殊”機會。我們曾提出過兩個理念，能為理解心理學的規則提供一個有用的情境。首先，科學上沒有哪個實驗是被設計得完美無缺的，對任何一個實驗數據的解釋都存在著不確定性。科學家們評估一個理論，往往不是坐等一個完美的或者關鍵的實驗的出現，而是對大量局部存在瑕庇的實驗的總體趨勢進行評估。第二，許多科學在即使沒有愛因斯坦的情況下也取得了進步。這些進步是蹣跚而曲折的，而不是通過偉大的“愛因斯坦式整合”那樣的階梯式躍進。和心理學一樣，其他許多科學也都是由那些原本缺乏共同主題的知識不斷積累和拼接而成。先前的討論引出了一個證據評估的原則，這個原則在心理學中至關重要。它常被稱作聚合性證據原則（或者操作聚合原則）。科學家和那些科學知識的運用者常常不得不做出判斷：海量的證據到底說明了什麼。在這種情況下，聚合性證據原則就成了一個非常重要的工具。聚合性證據原則對於科學信息的外行使用者來說也是個有效的工具，尤其是在他們要對心理學主張做出評估的時候。儘管對於聚合性證據這個概念所做的詳盡性技術討論將很快讓我們暈頭轉向，但事實上，此概念在實際應用方面的作用很容易理解。我們將探索兩種方式來表述這個原則，一種是按照“瑕疵實驗”的邏輯，另一種是按照理論檢驗。從極端上講，導致一個實驗出錯的方式有無數種（或用術語來說，就是變得混淆）。然而在大多數情況下往往不會有那麼多干擾性的關鍵因素。在某個特定領域中擁有豐富經驗的科學家，往往很清楚什麼是最關鍵的因素。因此，當對某一研究結果進行審查時，科學家總能察覺實驗中的關鍵瑕疵。接下來，聚合性證據原則提示我們去審查相關研究文獻所呈現的瑕疵模式，因為這類模式要么支持、要么否定我們想要做出的結論。假設來自大量不同實驗的結果都很一致地支持了某一特定結論。假如實驗本身並不完善，我們應該繼續去評估這些研究瑕疵的性質和程度。如果所有的實驗都是以同樣一種方式出現瑕疵，這些情況將會降低我們對實驗結論的信心，因為結論的一致性也許僅僅源於一個特定的瑕贓，而這個瑕疵是所有實驗共有的；另一方面，如果所有實驗都呈現出不同的瑕疵，我們對結論的信心就會大增，因為結果的一致性看似並非源自某一個讓所有實驗結果都混淆不清的干擾性因素。正如安德森（1996）所言，“不同的方法很有可能涉及不同的假設，當一個假設能夠通過眾多基於不同假設的證偽檢驗時，我們可以說是得到了一個強有力的結論”（p.742）。每一個實驗都有助於糾正其他實驗在設計方面的錯誤，而其他實驗反過來也檢驗它的瑕疵，使其獲得支持。儘管各自多少都存在不同的缺點，並且實驗技術也各有優劣，但只要大量的實驗能夠得到近似的結果，那麼我們就可以說我們的實驗證據實現聚合了。即使沒有一個實驗設計得十全十美，我們還是得到了一個相當有說服力的結果。因此，聚合性證據原則允許我們將結論建立在大量有些許差異的實驗來源之上。這個原則之所以能讓我們得出有說服力的結果，是因為這種方法所獲得的結果的一致性不大可能是由某個實驗程序的特殊性所造成的。聚合性證據原則同樣能以理論檢驗的形式加以表述。當一系列實驗始終支持某個假定的理論，同時又能共同排除那些最主要的競爭性理論時，研究就具有高度的聚合性。儘管沒有一個單一的實驗能排除所有的可能解釋，然而一系列具有一定診斷效力的實驗（如果所有數據都呈現某種特定趨勢的話）就能產生一個極具說服力的結論。例如，假設針對某一現象，有五種不同的理論（稱它們為A、B、C、D和E）同時存在，且都經過了一系列的實驗驗證。假設一部分實驗以很強的效力檢驗了理論A、B和C，結果數據否定了A和B，支持了C。再想像一下，另外一些實驗則以同樣的效力檢驗了理論C、D和E，結果數據否定了D和E，支持了C。這種情況下，對於理論C我們就有了強有力的聚合性證據。我們不僅有了支持理論C的數據，還擁有了對抗其他競爭性解釋的數據。強調一下，沒有一個實驗能夠檢驗所有的理論，但是匯總起來，一系列實驗就能做出有力的推斷。相反，如果所有已知的研究都只強有力地檢驗了B、C和E，並且數據結果支持C並否定了B和E，那麼理論C的說服力就不如前面例子中那麼強了。原因在於，儘管產生了支持理論C的數據，仍然沒有強有力的證據能夠排除其他可能的理論（A和D）。因此，當一系列實驗始終支持某個假定的理論，同時又能共同排除那些非常重要的競爭性理論時，研究就具備了高度的聚合性。儘管沒有一個單獨的實驗能夠排除其他可能的解釋，但如果將一系列具有部分診斷性的研究按照上述例子中的方式加以匯總，就能得到一個比較有說服力的結論。最後，聚合性證據原則能夠讓我們摒棄一個誤區，這個誤區的形成是由於我們在第2章對於證偽性的討論過分簡單化所造成的。當時的討論似乎讓人覺得，當第一個與自己的理論相抵觸的證據出現時，這個理論就算是被證偽了。然而事實並非如此（Pigliucci，2002）。正如理論是被聚合性證據所支持一樣，它也要被聚合性的研究結果所否定。強調聚合的重要性的原因在於，心理學結論往往是建立在聚合性證據原則之上的。這個事實當然並不獨特或罕見（在其他很多的科學中，結論也不是基於單一的、決定性的實驗證據，而是基於眾多結果不甚明晰的實驗）。但這種情況在心理學中尤為突出，心理學實驗的診斷性往往較低。也就是說，支持某一個理論的數據經常只能排除一小部分可能的解釋，還遺留了許多有可能取代這種理論的“候補”理論。其結果是，只有收集並比較來自大量研究的數據之後，才能得到有說服力的結論。心理學實驗具有高度模糊性的因素，這毫不奇怪，因為其研究的問題涉及復雜的人類行為。如果心理學家坦然承認這個事實，然後耐心地去解釋這個事實所帶來的結果，那麼公眾就能夠更好地理解這門科學。心理學家應該承認，儘管心理科學已然存在並且在不斷進步，但這種進步是緩慢的，並且許多結論往往都來自於令人感到折磨的長時間的統合和爭論之中。對於媒體經常宣稱的所謂突破性進展，我們要永遠帶著懷疑的態度，但心理學主張所經受的懷疑卻是千真萬確的。在心理學中，我們必須像走鋼索一樣謹小慎微。例如，我們必須抵禦這樣的誘惑：當證據還不確鑿時，就把某一假說當作已經證實了的理論來對待。本書連續幾章都反復強調了這種懷疑態度。要注意不要從相關中推論因果，拒絕接受見證敘述式的證據。與此同時，我們不應該對知識的不完整和最後結論有待探索等事情反應過度，並開始懷疑心理學究竟能否產生有說服力的結論。我們也不應該被“心理學不可能成為一門科學”這種非理性的主張所誘惑。根據這一立場，聚合性證據的原則可用來平衡對假設性知識所做的過度詮釋。儘管所有的心理學研究都存在這樣那樣的瑕疵，但聚合性能讓我們獲得有說服力的結論。證明聚合性證據原則的最好方法，就是檢驗心理學中一些仍存在爭議的領域。讓我們通過一個例子看看聚合性證據原則的重要性。這個問題是，接觸暴力電視節目是否會增加孩子們的攻擊性行為。對於這個問題，目前的科學共識是：觀看暴力電視節目（或者電影）的確能增加兒童的攻擊性行為。這種影響不是很大，但真實存在。科學家們對於這個結論的信心並非來自於某個單一的、權威的研究，而是來自許多研究結果的匯總（如，Anderson, Berkowitz, Donnerstein, Huesmann, Johnson, Linz, Malamuth, & Wartella, 2003; Anderson & Dill, 1999; Anderson & Huesmann, 2005; Anderson, Huston, Schmitt Linebarger, Linebarger, & Wright, 2001; Bushman & Anderson, 2002; Paik & Comstock, 1994）。這一研究結論適用於電視遊戲、電視及電影（Anderson & Bushman, 2001）。這些研究所採用的研究設計、被試規模以及特定技術都有很大差別，但現在能夠清楚發現，這些差別是此領域內各種研究的優勢，而不是弱點。儘管電視所屬的產業能給孩子帶來負面影響，證據十分確鑿，但那些電視網和電視遊戲產業的老闆們還是自然而然地會抵制這些證據。他們發起了一場誤導公眾的運動，利用的正是公眾“不能意識到研究結果是建立在許多研究的聚合上而非某個單一的、具有決定意義的證明上”這一特性。電視網公司不斷挑選個案並暗示，只要證明每一個研究都存在瑕疵，就可以全盤否定總體的結論。儘管社會科學研究者也許會去回應對於某個具體研究的批評，但並不能就此認為研究者總是輕易承認某個特定研究存在著缺陷。關鍵的區別就在於，研究者拒絕這樣的暗示，即承認某個特定研究存在瑕疵，就否定了“影視暴力會對攻擊性行為產生影響”這一普遍的科學共識。其原因就在於，普遍的結論來源於聚合性。即使是不包含這類瑕疵的研究，其結果也會指向同一方向。這一研究當然也有其自身的問題，但其他研究對此進行修正之後也產生了相似的結論。例如，關於這個問題，早期研究揭示了觀看暴力節目的數量和兒童攻擊性行為之間的相關。這些相關證據不能被視為因果關係，指出這一點是非常正確的。也許是第三個變量導致了這種關聯，也許更有攻擊性的兒童選擇去觀看更多的暴力節目（方向性問題）。但是科學團體的結論不單單是建立在相關證據之上的。研究者不僅對兩個變量之間的關聯進行簡單的測量，還使用了更為複雜的相關技術，這些相關技術允許研究者得出一些因果性質的試探性結論（其中一個如偏相關，在第5章中曾提到）。這類技術中，有一種方法採用縱向設計，即在不同時間點測量相同的兩個變量——在這裡就是電視暴力和攻擊性。由這一設計所得到的相關模式可以告訴我們二者是否有因果聯繫。有人已經進行過這類研究，得到的結果表明：觀看暴力電視節目的確有可能增加人們日後的攻擊行為。同樣，有人批評縱向相關技術尚存在爭議，這並非毫無道理，因為它確實有爭議。關鍵在於，“電視暴力和攻擊性行為之間存在因果聯繫”這一結論依靠的並不完全是簡單或複雜的相關證據，因為研究者還進行了無數的實驗室研究，在這些研究中，電視暴力的數目得到了直接操縱，而不僅僅是被評估。在第6章，我們曾討論過變量的操縱，操縱與隨機分配等控製手段共同使用，就能避免相關研究在解釋問題時存在的不足。如果有兩組兒童，在其他變量均得到了實驗平衡之後，仍然表現出不同水平的攻擊性行為；如果這兩組兒童的唯一的區別就是一組觀看暴力節目，而另一組沒有觀看暴力節目，那我們能做出正確的推斷：被操縱的變量（電視暴力——自變量）導致了結果變量（攻擊性行為——因變量）的變化。這個結果在大部分實驗研究中都出現了。這些研究已經激起了一些“這不是真實的生活”的非議，這種非議連同那些毫無根據的指責，在先前的章節中都曾討論過。無論怎樣，電視暴力的影響並非針對某個特定群體的兒童，因為這些結果在美國不同的地區和世界的不同國家都得到了印證。使用不同的實驗情境、不同電視節目作為實驗刺激的各個研究都得到高度一致的結果。重要的是，從現場實驗而非實驗室實驗中也得到了相同的結論。一種叫做現場實驗的設計也被用來研究電視暴力/攻擊性行為問題。這類研究設計的存在提醒我們，不要認為實驗情境和實驗設計之間存在必然的聯繫。有時候人們認為，我們只有在實驗室裡才能操縱變量，在非實驗室情境中只能進行相關研究。這個想法是不正確的。實驗室裡也常常進行相關研究，而非實驗室情境下也常常可以操縱變量。儘管有時在非實驗室的情境下操縱變量進行現場實驗需要相當大的創造性，但這一方法在心理學領域中被越來越普遍地採用。當然，現場實驗本身是有缺陷的，這些缺陷往往是其他研究的強項。總的來說，將觀看電視暴力和兒童攻擊性行為增加聯繫起來，所使用的證據並非僅僅依靠某一研究甚至某一類型的研究。這種情形類似於吸煙和肺癌的關係。煙草公司的老闆們經常試圖去誤導公眾，暗示吸煙導致肺癌的結論只基於個別研究，然後便開始批評個別研究。恰恰相反，支撐這個結論的是很多聚合性的證據。來自於不同研究的數據的聚合性是很強的，這些數據的聚合性不會因為對某個研究的批判而徹底改變。事實上，在這裡有必要討論一個類似肺癌起因的科學問題。醫學診斷和治療中的許多決策，都建立在不同研究結果能否匯聚為一個結論的基礎之上。例如，當流行病學調查（可以說是一種涉及人類的現場研究，目的在於尋求某一疾病與環境及地理因素的關聯）、精確控制的動物實驗以及人類被試的臨床實驗等不同類型的研究結果，都趨向於匯聚在一個結論上時，醫學界才會對這一結論抱有較大的信心，認定這一結論是可靠的，醫生們才願意在這些證據的基礎上實施治療方案。然而，所有這三種類型的研究都有其各自的缺陷。流行病學研究經常是相關性的，在變量之間存在虛假相關的可能性很高。實驗室研究能被高度控制，但實驗對象往往是動物而不是人類。醫院環境下的臨床試驗在真正的治療環境中使用人類作為被試，但仍有很多控制的問題，因為存在安慰劑效應和治療病人的醫療團隊的期望效應。就像吸煙和肺癌的例子中那樣，儘管每一種研究都存在問題，但當來自不同方法的數據能較強地匯聚起來的時候，醫學研究者們就能夠做出有說服力的結論。這與心理學家可以用聚合性證據原則來幫助他們做出電視暴力對攻擊性行為有影響的結論一樣。評估電視暴力影響的問題是一個典型例子，告訴我們：在心理學中，數據最後是如何累積起來用於解決問題的。尤其是在社會急切關注的領域，切記，這些問題的答案只能在大量不同研究結果實現融合之後緩慢地出現。通過單個突破性的研究是不可能解決這些問題的。用一個簡單原理來總結：在評估心理學的實證證據時，心中要想的是“科學共識”，而不是“重大突破”；是“漸進整合”，而不是“大步飛躍”。 “共識而非突破”這一原則，可以通過有關“兒童早期補償性教育計劃”的爭議加以說明。在20世紀60年代末和70年代初，當時關於林登·約翰遜（Lyndon B.Johnson）總統提出的“優質社會計劃”是否真的有效的爭論正進行得如火如荼，公眾經常會在報紙上看到這樣的頭條：“早期干預可將智商提高30分”和“心智開啟計劃是一個敗筆”等等。一個外行人該如何面對如此矛盾的信息呢？在這個例子中，“科學共識而非重大突破”原則無疑可以提供一些幫助，因為這一原則提醒我們，這兩個報紙頭條可能都不太成熟。事實上，研究者又花了十年的時間才在這個重要的社會問題上達成一個科學共識。這一共識的產生並非源自於某個單獨的重大研究成果，而是當康奈爾大學的一組研究人員（Lazar, Darlington, Murray, Royce, & Sniper, 1982）在20世紀60年代和70年代早期將來自11個不同早期教育項目上的幾百個被試的數據匯總起來分析時，這種共識才得以建立。儘管單一項目的研究結果有時候很難去解釋，但當它們匯聚在一起時，整體的研究結果就非常清晰了。早期教育干預的短期項目沒有順理成章地讓IQ增加30分。另一方面，心智開啟計劃以及一些類似項目也並沒有絕對失敗。早期教育干預項目的確能對參與此項目的兒童後繼的教育歷程產生具體的影響。這些兒童更少會留級，更少被安排到特殊教育班，而且對學校和學業成績有更為積極的態度，並持續表現出學業成績提高（也可見Lee, Brooks-Gunn, Schnur, ScLiaw, 1990; Ramey, 1999）。加拿大心理學家提莫西·摩爾（Timothy Moore, 1996）認為，如果人們能更加普遍地意識到聚合性原則，那麼在法庭上將會更好地利用專家證詞。他特別討論了依賴專家證詞的問題。證詞屬於個人意見，難以代表該領域專家的共識。摩爾引述了在一案中的專家證詞。這起案件涉及兩個青少年的自殺，他們的父母控告搖滾樂隊“猶大聖徒”在歌曲中傳達的潛意識信息誘發了他們孩子的自殺。儘管專家證詞指出，當時的科學共識是：沒有任何證據顯示那些潛意識信息能產生這種效果（即使是現在，這一共識仍然成立），然而，在一個不能反映實證性共識的學者進行了一番言之鑿鑿的心理動力學解釋之後，這個案子的法官多少還是受了些影響。摩爾總結說，這個學者誤導了法庭，“他的觀點雖然極富想像力和邏輯性，但與當時對於此問題的主流科學理解相悖。長長的履歷和尊貴的職位並不足以保證其觀點是科學有效的，單個專家的證詞是獨特的、個人化的，並且未經更廣泛的科學團體的認定，這樣的專家不足以引導整個法庭”（p.38）。聚合原則同樣也意味著，我們應當樂於看到多種不同方法應用於各個心理學研究領域之中。因為不同的研究技術各有其優勢和不足，用於獲得特定結論的各種方法之間呈現一種相對的平衡是比較理想的。心理學長期以來都因過於依賴基於實驗室的實驗技術而受到詬病。這種批評在心理學家之間也是個爭議性的話題。然而，一種確定無疑的趨勢是，近年來，心理學各個領域都已經開始使用不同的研究方法了。例如，由於過度依賴實驗室技術，社會心理學家遭受的批評可能是最多的，但社會心理學家已經開始轉向了更富想像力的現場設計，以尋求聚合性的證據來支持他們的理論（Kunda，1999）。心理學者比伯·拉坦（Bibp Latane）和約翰·達利（John Darley）的研究為此提供了一個很好的例子。這些研究者們因對“旁觀者現象”的研究而廣為人知。旁觀者現像是指，一些人在看到他人處於危難之中時並不施以援手。拉坦和達利（1970）指出了這樣一個事實：在很多危急時刻，當有其他旁觀者在場時，某個旁觀者伸出援手的可能性會更低。然而，這兩位研究者清楚地知道，這些僅憑被試在實驗室裡的反應而做出的結論太過單薄了。因為在實驗室中，被試都是在自願報名到實驗室來參加實驗之後才目睹緊急事件的。為此，拉坦和達利設計了另外一個有趣的實驗，希望在另一個情境中重現這一現象。他們找到一個願意合作的賣酒的商店，該商店同意假裝店裡發生了盜竊事件。當收銀員在店舖的後面為一個“顧客”拿啤酒時，該“顧客”（實際上是研究者的同伴）拿起一箱啤酒走出店門。這一幕總發生在收銀台前一個或兩個真正的顧客的眼皮底下。收銀員回來後問這一個或兩個顧客，“嗨，剛才在這裡的那個人到哪兒去了？你看見他離開了嗎？”這樣，就給了顧客一個機會向收銀員報告剛才發生的盜竊事件。與實驗室實驗的結果吻合：當旁觀者在場的時候，向收銀員報告盜竊案的行為受到了抑制。社會心理學家並不是唯一試圖在不同的情境中重複其研究結果的人。認知心理學家們也開始探索如何推廣他們的許多實驗結果。例如，吉格倫澤（Gigerenzer, 1984）研究了“頻率-效力效應”的普遍性。這個效應是指，一個陌生但看似有理的論斷，不管是真是假，只要經過不斷地重複，就會增加人們對它的相信程度。這個效應成功地得到了重複驗證，但是這些研究都是在實驗情境中，以大學生為被試（並且絕大多數在美國）。於是吉格倫澤做了一個非實驗室情境、以非大學生為被試的研究。他在德國慕尼黑測試了許多非大學生的成年人，測試在這些人家裡進行，也發現了“頻率-效力效應”，而且其程度與實驗室中美國大學生被試所得的幾乎相同。在第10章中，我們將討論許多帶有概率性質的決策原則，這些決策原則最早都產生於實驗室，但都經過了現場式的檢驗。例如，研究者檢驗了理療師、股票經紀人、陪審員、經濟學家及賭徒在各自所屬情境下，是以何種方式做出概率推理的（Belsky & Gilovich, 1999; Gilovich, Griffin, & Kahneman, 2002; Hilton, 2003; Kahneman & Tversky, 2000）。行為決定理論的原則業已用於許多應用性的領域，例如，決定丹佛市警局使用哪種型號的子彈最為理想，以及決定是否在亞利桑那州中部建立大壩（Hammond, Harvey, & Hastie, 1992）。實驗與非實驗結果的聚合性也成為教育心理學領域的突出特點。例如，針對不同課程安排所做的實驗研究和現場研究都表明，早期語音教學有助於閱讀技巧的習得（Ehri, Nunes, Stahl, & Willows, 2001; Pressley, 2005; Snowling & Hulme, 2005; Stanovich, 2000; Vellutino et al., 2004）。總的來說，當前的心理學研究採用多種類型的實驗技術和情境。儘管對於很多問題的研究有時候過於集中在使用某些特定的技術，但在心理學中，研究方法的多樣性比過去幾年豐富多了。對於某個特定問題的研究，通常是從相對較弱的方法過渡到可以做出較強結論的方法。例如，研究者對某個特定假設的興趣，常常源於某個異常感興趣的特殊個案。正如我們在第4章中討論的，這就是個案研究的真正作用：為更有效力的進一步研究提供一些假設，同時激發科學家們用更為嚴格的方法去研究這些假設。個案研究之後，研究者多采用相關研究來確認變量之間是否存在真正的關聯，而不僅是存在於幾個個案中的巧合現象。如果相關研究證實了變量之間的關聯，研究者就開始嘗試採用實驗法來對相關變量進行操縱，藉以找到變量之間可能存在的因果關係。這個遞進的順序就是：從個案研究到相關研究，再到操縱變量。儘管並非每個研究領域都遵循這個漸進式途徑（有時不同類型的研究同時進行），但這一向更有效方法邁進的進程的確是普遍發生的。在討論“向更有效的研究方法邁進”之前，我們必須糾正讀者的一個錯誤概念，這個錯誤概念源於第5章的討論，那就是“相關研究在科學中沒有什麼用處”。的確，當一個因果關係的假說需要驗證時，操縱變量的研究方法更受青睞。然而，這並不意味著相關研究對於知識的獲得毫無幫助。首先，許多科學假設是以相關或者不相關的形式來表述的，因此這類研究是在直接驗證這些假設。第二，儘管相關並不意味著因果關係，但因果關係一定包含相關。也就是說，如果一個相關研究不能肯定地證實因果關係的假設，那它可以起到排除這一因果假設的作用。第三，相關研究或許比它們看上去更有用，因為最近新發展的複雜相關設計可以讓研究者做出有限的因果推論。我們在第5章討論了偏相關這種複雜的相關技術，這一技術有可能檢驗出變量間的關聯是否能夠被第三變量所解釋。然而，最重要的原因可能在於，有時出於道德或倫理的考慮，我們無法對一些變量進行操縱（例如，營養不良或肢體殘障）。而另外一些變量，諸如出生順序、性別、年齡等，則因其無法被操縱而具有天然的相關性，涉及它們的科學知識也因此必須建立在相關證據基礎上。當然，這一情況並不是心理學領域所獨有。天文學家們顯然無法操縱所有影響其研究對象的變量，然而他們依然能夠做出結論。在健康心理學中，有一個研究方法演進的例子，它涉及A型行為模式和心髒病之間的關係（Curtis & O' Keefe, 2002; Matthews, 2005; Smith, 2003; SulsScBunde, 2005）。最初，A型行為模式這一概念源於兩位心髒病專家的觀察，這二位醫生從他們一些病人的行為中發現了一種穩定的模式，這種行為模式包括時間緊迫感、飄忽不定的敵意，以及對成就的極度渴求。於是，一些醫生通過對少數個案的觀察，提出了“A型人格”這一想法。這些個案研究提出了這個概念，但並不能作為有力證據來證明這種特定的行為模式是導致心髒病的原因之一。要證明這一點，需要的不僅是少數幾個個案研究，它還需要由心髒病專家、生物化學家和心理學家團隊數十年的努力。很快，這個研究從永遠也不可能證實假設的純粹個案研究，轉向了更有效力的研究方法。研究者發展和檢驗了A型行為模式的操作性定義。大範圍的流行病學研究證實了A型行為和心髒病之間的相關性。然後這種相關研究工作就變得很複雜了。研究者使用複雜的相關技術來搜尋潛在的第三變量。由於行為模式與其他傳統心髒病風險因素中的一種（例如吸煙、肥胖和血液中膽固醇水平）存在相關，因此A型行為和心髒病之間有可能存在虛假相關。當其他的變量在統計上被排除後，A型行為模式和心髒病之間仍然具有關聯。最後，研究者釆用了實驗研究對變量進行操縱，以期證實二者間是否具有因果關係。一些研究試圖去驗證是否某些生理機制影響了兩者之間的關係，並以動物作為被試——某些人所謂的“不是真實的生活”的研究方法。另外一些研究則以犯過心髒病的人為被試。這些被試被隨機分配到兩個組中的一組。一個組接受諮詢，幫助他們避免傳統的風險行為，例如吸煙或者吃高脂肪食物；另一組在接受同樣的諮詢的同時，還接受了一個以減少他們的A型行為為目的的訓練項目。三年之後，在接受A型行為輔導的病人中，心髒病復發的情況要明顯少很多。簡而言之，證據匯聚起來支持了“A型行為模式是導致心髒病的重要原因”這一假設。對這個問題的研究提供了一個很好的範例，從中我們能清楚看到，研究是怎樣從一個感興趣的個案研究走向相關技術，最後到可以操縱變量的實驗研究的。我們能從這個例子中得到的最後一點經驗就是，科學概念總是在不斷地演進。這個論點是在第3章討論操作性定義時首次提出的。最近的研究似乎表明，將A型行為與心髒病之間的關係說成是整體性的顯得過於簡單化了。原因在於，只有該概念中的特定成分（特別是對抗性敵意）才與心髒病有關聯（Curtis & O' Keefe, 2002; Matthews, 2005; SulsScBunde, 2005）。因此，這是個很好的例證，從中可以看出，隨著科學的進步，它是如何不斷地揭示特定的關聯，以及理論概念是如何被細化的。聚合性原則的最後一個啟示是，當一個問題的最初的研究結果看上去有些矛盾時，我們不應當對此感到絕望。在科學中，證據融合的過程就像投影儀慢慢將一張未知的幻燈片的焦點調清晰。起初，屏幕上的模糊影像可能代表任何東西。接著，隨著一點點地調整焦距，雖然這個圖像仍不能被清楚地識別出來，但許多其他的可能假設也許會被排除。最後，當焦距調準，就可以非常有信心地做出最終的判斷。證據融合過程就好比一個調焦過程。幻燈片的模糊影像就如同互相矛盾的數據，或者是那些支持多重假設的證據。因此，研究早期所獲得的矛盾數據不應該讓我們對發現真相感到絕望。類似的情況不光發生在心理學領域，同樣也發生在一些相對成熟的科學中。的確，公眾經常意識不到科學中經常會得到一些矛盾的數據。這些矛盾只不過是因為我們對問題理解得還不夠充分，這些矛盾還可能僅僅是偶然事件（我們將會在第11章中對此展開討論），或者源於不同實驗在方法上的細微差異。在達成共識之前，其他許多科學也都經歷了令人困擾的不確定時期（Ioannidis, 2004; Simonton，2004）。格蘭德威爾（Gladwell, 1996）講述了近來關於腦創傷患者緊急救治認識的演進過程。一名紐約患者非常幸運地得到了世界頂級專家之一簡姆·加哲醫生（Drjam Ghajar）的治療。這位醫生始終致力於改變該領域中一個臨床上的錯誤看法。格蘭德威爾說，若干年前，當加哲和其他五位研究者在對一些創傷治療中心進行調研時發現，儘管類固醇已經被反复地證明無助於減少顱內壓力（而且會帶來潛在危害），然而仍有75%的昏迷狀態的病人是用類固醇來治療的。他寫道：當談到幾年前他的同行的觀點時，加哲說，並不是說神經外科醫生太過懶惰，而是這兒的信息太過龐雜，讓人感到困惑（p.39）。簡而言之，和心理學的眾多領域一樣，該領域也充斥著許多尚未聚焦的研究，並且未能以一種有利於找到聚合性的方式加以概念化。因此在1994年，加哲和他的幾個同事參加了一系列學術會議，在這些會議上，他們試圖對所有的證據進行綜合，以期發現某種聚合性。這些會議是由大腦創傷基金會發起的，研究者們審閱了涉及大腦創傷處理的14個領域、超過4000份的科學論文。大腦創傷基金會的執行主席描述了神經外科專家是怎樣工作的：“他們所做的工作是對科學文獻的證據進行論證，一旦有人說'我以往的經驗就是如此'，所有人都會說，'哦，不，那不算，我們要看到證據'”（Gladwell, 1996，p.40）。最後的結果被證明是富有成效的：從這個例子可以明顯看出，並不僅是心理學的研究領域中遍布各種發現，在其他科學中也不乏這種由於數據模式的模糊性而難以達成一致結論的例子。在一篇名為“圖片問題”的文章中，格蘭德威爾（Gladwell, 2004）討論了人們為何很難理解醫生對於乳腺X光片的作用還存在著分歧。這是因為乳腺X光透視在大多數人看來是如此地“精確有力”，以至於他們認為僅憑它就能做出確診。其實這些人不理解，醫生的診斷雖必不可少，但乳腺X光片評估和疾病預測從本質上來說是具有概率性的。格蘭德威爾說，“圖片保證確定性，但它不能兌現這種承諾。經過40年的研究之後，對於女性在50歲至69歲期間接受乳腺X光透視的益處，仍然存在著不小的分歧。進一步的爭議則在於，是否有足夠的證據能夠證明，50歲以下和70歲以上的女性定期需要接受乳腺X光透視檢查”（p.81）。然而格蘭德威爾繼續談到，和心理學領域一樣，在醫學領域裡，知識即使不確定也依然有用：“答案是乳腺X光透視不需要完全準確無誤才能拯救生命……它沒有我們想的那麼好。但總歸比沒有它要強”（p.81）。在心理學和其他科學裡，將來自不同研究的證據整合起來形成一個結論，已經能夠通過一種更為正式的方法來實現，這就是一種叫做元分析的統計技術（Cooper & Hedges, 1994; Hunter & Schmidt, 1990; Rosenthal, 1995）。在醫學語境中，元分析就是：使用元分析來確定心理學結論的有效性，和醫學的情形是類似的。兩個實驗組的比較得出的效應，可以納入一個常規的統計矩陣中，這個矩陣能進行研究之間的比較。接著，這些結果以一種標準化的方式加以統計整合（Cooper & Hedges, 1994; Hunter & Schmidt, 1990）。如果整合過程達到了一定的統計學標準，就能形成一個關於這些效應的結論。當然，在某些情況下，有可能無法確定地得出一個結論，這時元分析的結果就是非結論性的。越來越多的評論者開始呼籲，應更加重視元分析，並將之視為一種方法，來消除科學領域內相互對立研究之間的不斷爭議。這種方法有助於終止這種“公說公有理，婆說婆有理”的爭論。對元分析的強調也揭示了一種觀點：專業雜誌上常見的觀點對立可能只是表面現象，實際上我們擁有更多可靠和有用的發現。國家閱讀評審小組（NRP, 2000; Ehri, Nunes, Stahl, & Willows, 2001）對一些關於閱讀教育的研究所做的元分析就證明了這一點。例如，他們得出結論，對38個不同的研究結果的元分析“有力地支持了這一觀點，即相比其他課程提供的非系統或非語音教學，系統的語音教學在孩子的成長中發揮了更大的作用”（p.2-84）。在報告的另一部分，NPR報告說，對於52個語音意識訓練研究的元分析說明，“教孩子掌握在語言中運用聲音，能幫助他們學會閱讀，在不同的教學、測驗及參與者的個性條件下，其效應量都遠遠大於隨機水平，並且，雖然這些效應有大有小，但大部分都處於中等水平”（p.2-5）。美國心理學會的一支工作團隊在心理學期刊上所做的關於統計方法的一番闡述，為本節內容提供了一個恰當的總結（Wilkinson，1999）。這個工作團隊說：“研究者不應僅針對單個研究的結果做出解釋，就好像其他文獻所報告的結果與之毫無關係似的”（p.602）。不同研究結果之間達成聚合效應，才有利於推動科學進步。一個研究的結果也只有通過針對特定問題的諸多研究獲得聚合性解釋，才是有意義的。在這一章中我們看到，為何“躍進”模式對於心理學來說是一種糟糕的模式，以及為什麼“漸進整合”模式提供了一個更好的框架，憑藉這個框架，我們就能夠理解心理學中的結論是如何形成的。聚合性證據原則描述了心理學上研究結果是如何被整合的：沒有一個實驗是可以一搥定音的，但是每一個實驗至少都能幫助我們排除一些可能的解釋，並讓我們在接近真理的道路上向前邁進。多種不同方法的使用讓心理學家更為確信，他們的研究結果是建立在穩固的實證基礎上的。最後，當概念上的變化發生時，它必須遵循關聯性原則：新的理論不僅要能解釋新的科學數據，還必須能解釋已有的數據。

註釋：

報告

按“左鍵←”返回上一章節；按“右鍵→”進入下一章節；按“空格鍵”向下滾動。

章節數

章節數

設置

設置

添加

返回

書



第12章 第8章避免爰因斯坦綜合症——聚合性證據的重要性

第12章第8章避免爰因斯坦綜合症——聚合性證據的重要性