2005년 8월 30일 화요일

모 오디오 사이트에 소개된 블라인드 테스트 비판

다음 글을 읽고 씁니다:
http://www.enjoyaudio.com/story/same.html


1. 무작위 이중맹 시험(randomized double-blind test)

'X'를 선택했을 때 ABX 시스템이 어떤 선택을 했는지 아는 사람이 실험실 안에 있어서는 안 됩니다. 그런데 이 부분이 명확하게 나타나지 않았군요. 즉, 글쓴이의 주장과는 달리 "이중맹" 시험이 아닐 가능성이 있습니다. 그런데, 만약 이것이 실험결과에 영향을 끼쳤다면 결과는 실험자의 결론을 뒤집는 방향으로 나타났을 것이므로 일단 통과.

2. 볼륨의 통제

음악이 시작될 때에만 볼륨을 통제하고, 이후에는 참가자가 조작할 수 있게 해야 합니다.

3. 컨디션(mental set)

참가자가 좋은 컨디션으로 실험에 임했음을 입증하는 어떠한 사전 검사도 이루어지지 않은 것 같군요. 참가자의 연령, 성별, 여성의 경우 생리주기, 왼손잡이/오른손잡이 구분, 질병 및 뇌 손상 여부에 대한 구분과 통제도 없습니다.

4. 표본(sample)

"도착한 청취자의 수는 25명이었는데 이 사람들은 각각 서로 다른 횟수의 청취 시험에 참가하였습니다."

참가자별 시험 횟수를 통일하지 않는 것은 좋은 실험 디자인이 아닙니다. 개인별 종합 성적을 보니 개인별 시험 횟수가 내적 일관성을 따지기에 충분하지 않은 사람이 반 정도로군요.

5. 확률

"두 사람의 청취자는 그들의 답안지 속에 20개의 문항 중 12개를 연속 맞추었습니다. 이러한 일이 일어날 확률은 0.038 입니다."

제가 확률론을 공부한지 오래 되서 헷갈리는데, 0.5^12=0.000244141 아닌가요? 어떻게 0.038이라는 수치가 나오죠?

(나중에 붙임. 정답은:
p = 1 x (0.5)^12 + 8 x (0.5)^13 = 0.001220703125...)



6. 유의도

패널별 청취 테스트에서 P값이 0.05 이하인 그룹이 하나, 0.05를 살짝 초과하는 그룹이 둘이로군요. 표본 수를 더 늘리면 세 그룹 모두 유의미한 결과를 보일 수도 있습니다. 종합 성적에서도 P값이 0.05에 근접한 앰프 조합이 있군요. 이 조합으로 대표본에 의한 추가 실험을 할 필요가 있습니다. (실험의 특성상 극단치를 무시할 수 없으므로 표본 수가 충분하다고 할 수 없습니다. "적당한 시간 이내에 마쳐야 했으므로 그 수를 제한해야 했"다는 말도 변명에 지나지 않습니다. 이런 실험을 짧은 기간에 끝내겠다는 발상 자체가 과학적이지 못합니다.)

개인별 종합성적에서도 두 명의 참가자가 0.05에 근접하는 성적을 보였군요. 이 피험자를 대상으로 여러 차례에 걸친 실험을 해서 유의미한 결과가 나타나는지 살펴볼 필요가 있습니다. (25명의 '자칭 황금귀' 가운데 23명은 가짜이고 두 명이 진짜일 가능성울 무시할 수 없습니다.)

7. 학습효과

참가자가 실험실의 음향 환경에 적응하지 못했기 때문일 수도 있습니다. 같은 피험자가 첫날과 다음날, 또 다음날에 계속 실험에 참가했다면 결과가 어떻게 바뀔지 모릅니다.

8. 결론

실험 결과를 충분히 신뢰할 수 없습니다.

9. 논의

그러나 심정적으로는 어느 정도 진실을 반영한 결과가 아닌가 생각됩니다. 즉, 일정 수준 이상 되는 앰프는 하이엔드 앰프와 차이를 구분하기 힘들 지도 모릅니다. 다만, '진짜 황금귀'가 들었을 때에는 또 모르는 일입니다.

실험 결과를 믿을 수 있다 하더라도 어디까지나 실험에 사용된 앰프에 한해서만 인정되는 결과입니다. 잘은 모르지만 실험에 쓰인 앰프는 모두 어느 정도 이상의 수준인 것 같군요. 저는 어쩌면 제가 쓰는 저가형 앰프와 마크레빈슨 앰프를 소리로 듣고 구분하지 못할 지도 모릅니다. 그러나 저는 대학 1학년 때 멋 모르고 산 뮤직센터(저가형 제품에 대해 흔히 말하듯이 '가격대 성능비' 운운하기도 민망한 녀석입니다)와 지금 쓰는 앰프를 틀림 없이 구분할 수 있습니다. :-)

*

나중에 붙임:

위에 마크레빈슨 앰프 구분 못할지도 모른다는 말 대략 취소함. Cambridge Audio Azur 840A 앰프 쓰다가 고장나서 Rega Elex 앰프를 임시로 쓰는데, 앰프 성향이 다르기는 해도 얼핏 들으면 그게 그거인 것 같지만, 들을수록 중역대가 소란스러워서 볼륨 높이기 싫어진다.

실험 엉터리로 해놓고 구분 못하기는 개뿔이. 나한테 적당한 공간과 장비만 있으면(장기간 테스트가 핵심) 실용론자들 캐버로우시킬 자신 있다.

글 찾기

글 갈래