心理学実験・テストの信憑度一覧

以下に、分野別に心理学の有名な実験やテストとその信憑性評価（★〜★★★）をまとめます。信憑度は、再現実験の成否、効果量、大規模研究の結果、文化差、サンプルサイズ、事前登録の有無など科学的基準に基づいて評価しています。各実験について、目的や主張内容、代表的な研究、および近年の再検証状況を示しています。

目次

認知心理学（注意・記憶・認知バイアスなど）
社会心理学（社会的影響・集団行動など）
感情・動機づけの心理学
学習・行動の心理学
色彩心理
臨床・性格検査

認知心理学（注意・記憶・認知バイアスなど）

実験 / テスト名	目的・主張内容	代表的な研究	信憑度	近年の再検証状況
ストループ効果 (色詞命名課題)	色名と言語の干渉効果で、自動化された読み取りが注意に与える影響を示す。	Stroop (1935)	★★★	色と語の不一致条件で反応が遅延する現象。初報告以来何百回も再現され、心理学史上最も有名な現象の一つ:contentReference[oaicite:0]{index=0}。
ミスインフォメーション効果 (虚偽記憶)	事後に与えられた誤情報により記憶が歪められる現象。目撃証言の信頼性を検証。	Loftus & Palmer (1974)	★★★	自動車事故場面の実験で、質問の語句によって記憶が変容。以後多数の追試で効果が確認され、記憶の脆弱性を示す代表的知見:contentReference[oaicite:1]{index=1}。
アンカリング効果 (初期値バイアス)	数値判断において最初に提示された値（アンカー）が後続の判断を歪める。	Tversky & Kahneman (1974)	★★★	ルーレットで出た数字を見せた後に国連加盟国数を推測させる実験などで実証。多施設大規模再現で安定した効果が確認され、当初の報告より強い影響さえ示された:contentReference[oaicite:2]{index=2}。
フレーミング効果 (枠組み効果)	同じ選択肢でも表現方法（利益か損失か）によって意思決定が変化する。	Tversky & Kahneman (1981)	★★★	「命が助かる/失われる」の表現差で人々の選好が逆転する現象。大規模再現研究で一貫して再現され、リスク選好の文脈依存性が支持された:contentReference[oaicite:3]{index=3}。
選択的注意と見落とし (「透明なゴリラ」実験)	注意を向けていると驚くほど顕著な刺激でも見逃すこと（非注意性盲）が起こる。	Simons & Chabris (1999)	★★★	バスケのパスに集中すると画面中央を横切るゴリラに気付かない有名な実験。これは1970年代の類似研究の手法を洗練し再現したもので、以後も種々の形で再現性が確認されている:contentReference[oaicite:4]{index=4}。
行動プライミング (高齢者歩行実験)	「老い」を連想させる単語を読み取らせると歩行速度が低下するなど、無意識のプライム刺激が行動に影響すると主張。	Bargh, Chen & Burrows (1996)	★	当初は無意識の連想で行動が変容するとして注目されたが、その後の追試はことごとく失敗。2012年の厳密な再現実験では効果は見られず、むしろ最初の結果は実験者期待効果の産物だった可能性が示唆された:contentReference[oaicite:5]{index=5}。以降、この種の「社会的プライミング」研究の再現性には強い疑問符が付いている。

実験 / テスト名	目的・主張内容	代表的な研究	信憑度	近年の再検証状況
アッシュの同調実験	集団圧力によって明白に誤った回答でも個人が同調してしまう現象を検証。	Asch (1951)	★★★	線分の長さ比較で多数派の誤回答に参加者が合わせる割合を測定。以降、世界各国で100件以上の追試が行われ効果が確認された:contentReference[oaicite:6]{index=6}。ただし同調率は文化によって異なり、集団主義的文化で高く、個人主義文化ではやや低いことも報告されている:contentReference[oaicite:7]{index=7}。
ミルグラムの服従実験	権威への服従が人々にどこまで非人道的行為をさせ得るかを検証。	Milgram (1963)	★★	「学習実験」と称し被験者に他者へ電気ショックを与えさせた。オリジナルでは65%が最大電圧まで服従した。2009年に倫理的配慮の下で部分再現が行われ、150V超を許容した参加者は約70%と当時と同程度であった:contentReference[oaicite:8]{index=8}。また1960年代当時から各国で類似調査が行われ、米国平均約61%、他国平均約66%と文化差は小さいことも報告された:contentReference[oaicite:9]{index=9}。
スタンフォード監獄実験	刑務所環境における役割（看守・囚人）の影響で、善良な人でも残虐な行為に及び得ると主張。	Zimbardo (1971)	★	大学生を看守と囚人に割り当てた模擬監獄実験。看守役が短期間で虐待的になったとされるが、後のBBCによる再現では結果が逆転し、囚人が団結して看守を圧倒:contentReference[oaicite:10]{index=10}。現在では当初の結果は実験者の示唆や演出による疑いが濃く、再現性・科学的信頼性は乏しいと見なされている。
傍観者効果	複数の目撃者がいる場面では、一人のときよりも援助行動が起きにくくなるという現象。	Latané & Darley (1968)	★★★	火災報知や倒れる人などの実験で、周囲に他者がいると助けに動く割合が低下することを実証。2011年のメタ分析では全体の効果量g=-0.35と有意な効果が確認され:contentReference[oaicite:11]{index=11}、特に危険性が低い状況で顕著だった。ただし状況が明白に危険な場合は効果が弱まるなど、条件次第で緩和されることも示されている:contentReference[oaicite:12]{index=12}。
ロバーズケイブ実験 (集団間競争と協力)	限られた資源を巡る集団間競争が偏見や対立を生み、協同目標の付与で和解できることを示す。	Sherif et al. (1961)	★★	少年キャンプで2グループを競わせ敵対心を誘発し、その後協力課題で和解させた実験。野外実験ゆえ厳密な再現は困難だが、競争が対立を生む現象自体は現実の集団間関係でも裏付けられている。近年では倫理上この手の実地実験は行われていないものの、理論としてはリアリスティック葛藤説として定着している。
ステレオタイプ脅威	特定集団に対する否定的ステレオタイプの存在が、当人の成績や能力発揮を阻害する。	Steele & Aronson (1995)	★★	「知能テスト」と強調されると黒人学生の成績が低下する等の結果が報告された。当初多くの追試で類似効果が観察され支持されたが、近年大規模な再現プロジェクトでは効果が再現されない例も多発し、その普遍性に疑問が呈されている:contentReference[oaicite:13]{index=13}。現在では効果は状況や個人要因に左右され、ごく限定的な条件下でのみ生じる可能性が指摘されている。

感情・動機づけの心理学

実験 / テスト名	目的・主張内容	代表的な研究	信憑度	近年の再検証状況
顔フィードバック仮説 (ペン噛み実験)	表情筋の動き（例：笑顔の形）が感情体験にフィードバックを与え、主観的感情を増幅・変化させる。	Strack et al. (1988)	★	ペンを口にくわえて漫画の面白さ評価が変わるという有名な実験。一時は「笑えば幸せになる」と話題になったが、2016年の大規模登録再現実験（17研究機関・2千名）で効果は検出されず完全な失敗に終わった:contentReference[oaicite:14]{index=14}。その後の検証で条件次第では効果が出るとの報告もあるが、結論はなお議論中。
シャクターとシンガーの二要因情動理論	情動は「生理的覚醒」と「認知的解釈」の二要因によって決まる。状況次第で同じ生理反応が異なる感情として解釈される。	Schachter & Singer (1962)	★	被験者に興奮剤（エピネフリン）を投与し、怒りまたは陽気な他者と同室にする実験。知識のない被験者は周囲に合わせて自分も怒りや幸福を感じたと報告した。理論的には有名だが、追試結果は一貫せず、多くの研究で状況に関わらず被験者はネガティブ感情を示すなど結果が不安定だった:contentReference[oaicite:15]{index=15}。現在では「認知解釈が情動に影響し得る」という大枠は支持されるものの、元の実験デザインの再現性は低い。
吊り橋実験 (錯誤帰属による恋愛感情)	恐怖などで高まった生理的覚醒を誤って魅力によるドキドキと解釈し、相手への恋愛感情が増幅される。	Dutton & Aron (1974)	★★	高所で揺れる吊り橋を渡った男性は、安全な橋を渡った男性よりも、橋上で出会った女性実験者を魅力的と感じ電話連絡する割合が高かったと報告。フィールド実験でサンプルが少ないためその後の再現にはばらつきがあるが、一般に生理的喚起状態は好ましい対象をより好ましく、嫌悪対象をより嫌に感じさせる効果が確認されている:contentReference[oaicite:16]{index=16}。
基本情動の普遍性 (表情の文化差)	喜怒哀楽など基本的な感情に対応する表情表現は文化を超えて普遍である、という主張。	Ekman (1971)	★★	エクマンは遠隔地の未接触文化でも表情写真の意味を正しく分類できることを示し、主要な基本感情6種について普遍的理解があると報告:contentReference[oaicite:17]{index=17}。一方、近年の研究では文脈によって解釈が異なる場合もあり、例えばパプアニューギニアのある部族ではエクマンが「恐れ」の顔とする表情を「脅威・怒り」と受け取った:contentReference[oaicite:18]{index=18}。このため、基本的傾向は普遍でも微妙な解釈や表現頻度には文化差があると考えられている。
カタルシス仮説 (怒りのはけ口)	怒りは攻撃行動の発散（カタルシス）によって解消されるという仮説。例えば怒りを殴って発散すれば落ち着くとする。	Freudの仮説 / Bushman (2002)	★	パンチングバッグを叩く等で怒りを発散させた方が良いという通説に対し、実験ではむしろ怒りは増幅する結果が繰り返し示された:contentReference[oaicite:19]{index=19}。ブッシュマンの研究では侮辱後に殴って発散した参加者のほうが何もしない参加者より攻撃的になった。メタ分析でも「カタルシスで怒り解消」の支持は見出せず、心理学的には否定されている。

学習・行動の心理学

実験 / テスト名	目的・主張内容	代表的な研究	信憑度	近年の再検証状況
パブロフの犬 (古典的条件づけ)	本来無関係な刺激（音など）と生得的な生理反応（唾液分泌など）を繰り返し対提示すると、刺激だけで反応が生じる条件反射が形成される。	Pavlov (1897)	★★★	犬にベル音と餌提示を対提示し、ついにベル音だけで唾液を分泌するようになった実験。古典的条件づけは20世紀に行動主義心理学の基礎となり、神経機構まで含め盛んに研究:contentReference[oaicite:20]{index=20}。現在まで様々な種で反復検証され、人間の恐怖症形成などもこの原理で説明される。
リトル・アルバート実験	幼児に大きな音と白いネズミを対提示して恐怖条件づけを行い、恐怖反応が類似対象（ウサギや毛皮コート）へ般化するか検証。	Watson & Rayner (1920)	★	生後11か月の幼児アルバートに恐怖反応を条件づけた古典的実験。現在では倫理的・方法論的問題が指摘されており:contentReference[oaicite:21]{index=21}、一例の示唆的報告として歴史的意義はあるが再現性の検討は不可能。被験者のその後のフォローもなく、科学的証拠としての評価は限定的である。
スキナーのオペラント条件づけ	自発行動に対する強化（報酬）や罰によって、その行動の生起頻度が変化する学習原理を示す。	Skinner (1948)	★★★	スキナー箱と呼ばれる装置でネズミがレバー押し→エサといった実験を多数実施。ご褒美で行動増加、罰で減少という原理は極めて再現性が高く、動物のしつけから人間の行動療法にまで応用されている。スキナーの研究群は心理学において厳密な実験統制のモデルともなった。
ボボ人形実験 (社会的学習理論)	子供は他者の行動を観察し模倣することで、新たな行動（攻撃など）を学習しうることを示す。	Bandura (1961)	★★★	大人がクラウン人形を殴打する様子を見た子供は、後で同じ人形に対し攻撃的行動を取る確率が高まった。さらにモデルが罰せられる場面では模倣が減ることも確認。これらの実験は「人は他者への報酬・罰を見て学ぶ」ことを明確に示し、暴力的メディアが児童に与える影響などへの実証的根拠となった:contentReference[oaicite:22]{index=22}。
マシュマロテスト (遅延報酬の能力)	幼児期の自制心（1個の菓子を我慢してより大きな報酬を得る能力）が将来の学業・社会的成功を予測すると主張。	Mischel (1972)	★★	4歳児を対象に1個のマシュマロを15分我慢できればもう1個もらえる約束をし、その場で食べずに待てるか測定。1990年の追跡調査では待てた子が学業成績（SAT）などで上回ると報告された。しかし2018年により多様な約900人のデータで検証したところ、4歳時の遅延行動と15歳時の成果との相関は元研究の半分以下に低減し、家庭環境や知能を統制すると相関はほぼゼロになった:contentReference[oaicite:23]{index=23}。すなわち遅延能力それ自体が将来成功を左右する決定的要因とは言えないことが示唆された。
自我消耗（エゴ・ディプリション）仮説	意志力や自己制御は有限のリソースであり、一度使うとしばらく枯渇して他の課題の遂行能力が低下する、という仮説。	Baumeister et al. (1998)	★	「意志力は筋肉のように疲労する」という比喩で人気を博した理論。当初の実験（嫌な大根を食べた被験者はパズル持続時間が短い等）は多数報告されたが、2010年代に入り疑問視される。2016年の23研究室合同の事前登録再現実験では効果量は0に近く、統計的に有意な効果は検出されなかった:contentReference[oaicite:24]{index=24}。メタ分析でも出版バイアスを除くと効果はごく微弱になるとの指摘があり、現在では古典的エゴ消耗モデルは否定的に見られている。
ピグマリオン効果 (教師期待効果)	教師が生徒に高い期待を抱くと成績が向上し、低い期待だと成績が振るわなくなる自己成就予言的な効果。	Rosenthal & Jacobson (1968)	★★	小学校で無作為に選んだ「知能開花児」に教師が高期待を抱いたところ、一年後にIQが他より上昇したと報告。一部の追試では若年層に小さな効果が見られたが、元研究のような大きな効果の再現は繰り返し失敗しており:contentReference[oaicite:25]{index=25}、現在では効果があってもごく限定的かつ状況依存と考えられる。教育心理学で引用されることは多いが、実際の教育介入への適用には慎重さが必要とされる。

色彩心理

実験 / テスト名	目的・主張内容	代表的な研究	信憑度	近年の再検証状況
ベイカー・ミラー・ピンク（ピンクの鎮静効果）	特定のピンク色（通称: Baker-Miller Pink）に鎮静効果があり、暴力的傾向や筋力を一時的に低下させると主張。	Schauss (1979)	★	米海軍の留置房をピンクに塗った報告などで一時期有名になり、刑務所で暴力低減を期待して壁色をピンクにする試みもあった。しかし後年、同じ研究者が再テストしたところ効果は再現せず、むしろ暴力増加の懸念さえ示された:contentReference[oaicite:26]{index=26}。近年の厳密な実験でもピンクの特殊な鎮静効果を裏付ける信頼性あるデータはなく、現在ではほぼ否定的見解で一致している。
赤色ユニフォームと勝率	競技において赤いユニフォームを着用すると闘争心や審判の判定に影響し、勝利の可能性が高まるという主張。	Hill & Barton (2005)	★★	2004年オリンピック格闘技で赤コーナー選手の勝率が偶然以上に高いことから提唱。2005年以前のデータでは接戦時に赤側勝利が56%とわずかに優勢だった:contentReference[oaicite:27]{index=27}。しかしその後ルール改正や電子採点普及で判定の偏りが減り、最近の大会では赤の優位性は消滅した:contentReference[oaicite:28]{index=28}。審判の無意識バイアスが一因と考えられ、色そのものの効果は状況依存で小さい。
赤色効果（魅力・印象）	異性の服や背景に赤が使われていると魅力度が増すなど、赤色が人の心理・評価に特殊な効果を及ぼすとの主張。	Elliot et al. (2008)	★	男性が赤い服の女性をより魅力的と評価するなどの実験結果が報告され、「赤=ロマンティック」の俗説を支持するように思われた。しかしその後の研究では、写真評価など人工的条件では一貫した効果が検出されず、近年のメタ分析でも平均すると有意な効果は見られなかった:contentReference[oaicite:29]{index=29}。実社会での状況や対象の魅力度によって効果が出る場合もあるが、少なくとも単純な「赤だから魅力的」という効果は科学的には弱い。
色彩と認知パフォーマンス	テストや課題実施時の周囲の色（赤や青など）が注意・創造性・意欲に影響し、成績に差が生じるという主張。	Elliot et al. (2007) Mehta & Zhu (2009)	★★	赤を見ると「失敗への警戒」が喚起されテスト成績が下がる、一方青は創造的課題に有利といった結果が発表された。しかしその後、他研究者による検証では効果が再現されたりされなかったりと不安定であることが判明:contentReference[oaicite:30]{index=30}。単純作業では赤優位・複雑作業では青優位といった報告もあるが、色の影響はごく小さく、教育現場で実務的に活用できるレベルの一貫性は確認されていない。
ルッシャーカラー診断 (色彩選好テスト)	8色の好み順から性格や心理状態を診断する投影法テスト。無意識の内面を色選択に投影すると仮定。	Lüscher (1947)	★	一時期は企業の採用試験等にも使われたが、科学的妥当性は否定的である:contentReference[oaicite:31]{index=31}。テスト結果の記述は誰にでも当てはまる「バーナム効果」的な内容との指摘や、同一人物でも時期により結果が変わりやすい低い信頼性が問題視された。近年の研究でもパーソナリティを正確に測定できるという証拠はなく、専門家の間では使用は推奨されていない。

臨床・性格検査

実験 / テスト名	目的・主張内容	代表的な研究	信憑度	近年の再検証状況
ローゼンハン実験 (擬患者実験)	精神病院の診断精度を検証。健常者が幻覚を訴えて入院し正常に振る舞っても退院まで偽装が見破られないか確かめた。	Rosenhan (1973)	★	8人の擬患者が12病院に入院し全員「統合失調症」と診断され平均19日拘束、職員は誰も欺瞞に気付かなかったと報告。精神医療への警鐘を鳴らし大反響を呼んだが、後に一部データの歪曲・捏造疑惑が提示されている:contentReference[oaicite:32]{index=32}。再現は倫理的に不可能であり、当時から精神科医による批判も強かった。現代では歴史的事件として言及されるが、科学的証拠としては疑義が残る。
ロールシャッハ・テスト (インクブロット)	左右対称のインクのしみ図版に対する被験者の連想内容から、深層心理や人格特性を分析しようとする投影法テスト。	Rorschach (1921)	★	長年にわたり臨床で用いられてきたが、測定したい特性を本当に測定できているか（構成概念妥当性）に疑問が投げかけられている:contentReference[oaicite:33]{index=33}。解釈者間の一致率も課題で、支持者は包括システムで信頼性向上を図ったが意見は分かれる。近年のメタ分析では認知機能の一部指標に有効性が見られるとする報告もあるが、全体としてMMPIなど客観テストほどの安定した有効性は示されていない。
TAT (主題統覚検査)	曖昧な人物画像を見せ、物語を作らせる投影法。語られた内容から被験者の欲求・コンプレックスなどを読み取ろうとする。	Murray (1943)	★	物語に投影される動機（達成・権力欲求など）を測定する試み。マレー以来、マクレランドらが達成動機の指標として改良し一部成果を上げたが、一般人格評価法としては疑問符が付く。分析者ごとに解釈が異なりやすく信頼性が低いとの批判があり:contentReference[oaicite:34]{index=34}、近年は動機づけ研究以外ではほとんど使用されない。
MMPI (ミネソタ多面的人格目録)	550以上の「はい・いいえ」項目から臨床的な性格特性や精神疾患傾向を測定する標準化検査。	Hathaway & McKinley (1942)	★★★	精神医学領域で最も広く用いられる人格検査の一つ。数千名規模の標準化データに基づき信頼性・妥当性が高く、妥当性尺度で回答の歪みも検出できる:contentReference[oaicite:35]{index=35}。数十年にわたり改訂が重ねられ（MMPI-2、MMPI-3など）、各尺度の精度も検証されている:contentReference[oaicite:36]{index=36}。もっとも文化・年代差への調整は必要であり、日本版も独自標準化が行われている。
MBTI (マイヤーズ=ブリッグス性格指標)	ユングのタイプ論に基づき、人格を外向/内向・直観/感覚・思考/感情・判断/知覚の4軸で16タイプに分類する。	Briggs & Myers (1944)	★	企業研修などで世界的に有名だが、心理測定法としては信頼性・妥当性に重大な欠陥がある:contentReference[oaicite:37]{index=37}。同じ人でも時期によりタイプが変わることが多く、性格を連続ではなく二分法で捉える点も現代の人格特性モデルと合致しない:contentReference[oaicite:38]{index=38}。学術的にはビッグファイブモデルの方が支持されており、MBTIは「人気はあるが科学的根拠に乏しいテスト」の代表例とされる:contentReference[oaicite:39]{index=39}。
ビッグファイブ性格検査	人格特性を「外向性・神経症傾向・開放性・協調性・誠実性」の5因子で測定する、現代人格心理学の標準モデル。	Costa & McCrae (1985) (モデル提唱自体は1960年代)	★★★	質問紙法で5つの広範な特性とその下位項目を測定。世界各国の言語で因子分析しても類似の5因子が検出されることが繰り返し示され、現在の人格研究の中心的枠組みとなっている:contentReference[oaicite:40]{index=40}。各因子の信頼性は高く、職業パフォーマンスや健康との関連も多数の縦断研究で実証されている。一方、5因子で説明できない側面（誠実さ・謙虚さなど第6因子）も議論されている。
ポリグラフ検査 (嘘発見器)	心拍・血圧・発汗など自律神経反応を測定し、質問時の反応変化から被験者が嘘をついているか判断する。	Larson (1921)	★	捜査や雇用審査に用いられることもあるが、心理学者の大半は「嘘検知の科学的根拠は乏しい」と考えている:contentReference[oaicite:41]{index=41}。反応は緊張や恐怖など様々な要因で増減し、真実でも緊張すれば嘘と判定されかねない。的中率は統計的に見ると偶然をやや上回る程度に留まるとの報告もあり、米国科学アカデミーも2003年に「特定目的以外での精度は実用に耐えない」と結論づけている。

【脚注】 ★信憑性が低い (再現性や妥当性に疑義)、★★限定的な条件で効果あり (効果が小さい・文脈依存)、★★★信頼性が高い (大半の研究で安定して再現)。