Chris Carter, "Science and Psychic Phenomena" (2007), capítulo 7
El psicólogo Ray Hyman, por mucho tiempo critico de la indagatoria psi y miembro fundador del CSICOP [Comité para la Investigación Científica de Afirmaciones Paranormales], no estuvo de acuerdo con las inferencias de Charles Honorton y llevó a cabo su propio metanálisis sobre los datos Ganzfeld. Este hecho generó un debate, cuyos inicios se publicaron en dos números completos del Journal of Parapsychology en 1985 y 1986.
Hyman afirmaba que era demasiado alto el cálculo del 55% de estudios significativos, y adscribiendo una serie de escollos con las 42 pruebas, en vista de que algunos investigadores utilizaron más de una medida para determinar un resultado exitoso (análisis múltiple); peor aún, existía la posibilidad de que ciertos pesquisantes hubieran “regateado”, aplicando diversos criterios a los datos hasta encontrar un parámetro que fuera “indicativo”. También planteó la hipótesis de un sesgo favorable para llegar a resultados satisfactorios.
Este es el llamado problema del “archivador”, es decir, cuando tienden a reportarse los experimentos con resultantes propicias, mientras que las fallas simplemente languidecen en cajones llenos de informes. Finalmente, Hyman presentó los resultados de un análisis estadístico que aspiraba a mostrar una relación entre el número de errores en cada estudio y el éxito reportado, sosteniendo que los ensayos más incompletos solían informar las puntuaciones más altas. Al ajustar todos esos factores, Hyman concluyó que la tasa de éxito real estaba cerca de lo predicho por el azar.
Honorton aceptó la primera de estas críticas, y concedió que el análisis múltiple era en realidad un contratiempo. En respuesta, limitó su análisis sólo a aquellas 28 pruebas que genuinamente reflejaban las tasas de acierto obtenidas para calcular el porcentaje de logros directos, definiendo un resultado exitoso sólo como aquel donde el sujeto clasificaba al objetivo en primer lugar. Utilizando esta medida uniforme, 23 de las 28 instancias obtuvieron productos superiores a la expectativa aleatoria, y el 43% del total de ensayos arrojó frutos significativos. El promedio general de aciertos fue del 35% (25% esperado por casualidad) y el intervalo de confianza del 95% osciló entre 28 y 43%. Además, los resquicios de que esto ocurriera sólo por casualidad eran de mil millones a uno (1).
Honorton evidenció que estas resultantes positivas no se debieron sólo a uno o dos laboratorios, pues los 28 experimentos provinieron de diez recintos diferentes: uno dirigido por el psicólogo británico Carl Sargent, que contribuyó con nueve; el de Honorton con cinco; otros dos que realizaron tres cada uno; dos instalaciones replicaron dos cada una, y las cuatro restantes contribuyeron con un estudio por separado. Así, la mitad de los controles vino sólo de dos laboratorios, siendo uno de ellos el de Honorton.
En consecuencia, Charles analizó los productos de cada laboratorio y encontró que eran significativos para seis de los diez establecimientos. Incluso si proscribiéramos los resultados de las dos instalaciones más prolíficas, las probabilidades contra el azar seguían siendo de 10.000 a uno (2). Por lo tanto, las respuestas positivas no podían explicarse mediante análisis múltiple, o como efecto de que sólo uno o dos lugares contribuyeran con la mayor parte de los estudios. Luego Honorton abordó las otras críticas de Hyman.
Informes selectivos
Durante mucho tiempo se ha venido creyendo que en todos los campos puede haber un sesgo a favor para reportar y publicar estudios con desenlaces positivos. Dada la naturaleza controvertida de su tema, los parapsicólogos estuvieron entre los primeros en abordar esta dificultad, y en 1975 la Asociación de Parapsicología adoptó una política contraria a la retención de datos no significativos, siendo éste un hecho único entre las disciplinas científicas. Además, en 1980 Susan Blackmore realizó una encuesta entre parapsicólogos para comprobar si había un sesgo a favor de notificar resultados exitosos de Ganzfeld, y concluyó que no había ninguno. Descubrió sólo diecinueve estudios homónimos completos, pero no declarados; siete de ellos (37%) tuvieron secuelas significativamente positivas, una proporción muy similar a aquélla de los testeos en el metanálisis que lograron frutos llamativos de modo independiente (43%) (3).
Aún así y como en teoría no es posible saber cuántos ensayos no reportados pueden permanecer en cajones de archivos, Honorton utilizó una técnica de metanálisis con objeto de calcular cuántos experimentos Ganzfeld desconocidos y no significativos se necesitarían para abreviar las resultantes informadas a niveles de probabilidad. Acerca de las 28 pruebas Ganzfeld sobre impacto directo, se requerirían 423 no reportadas y no significativas respecto a una proporción de ensayos sin informar, para una tasa aproximativa de 15 a 1 de estudios divulgados versus desconocidos. Puesto que una sesión Ganzfeld comporta más de una hora y considerando el bajo número de laboratorios equipados en el mundo para esta clase de experimentos, no es sorprendente que Hyman coincidiera con Honorton en que los informes selectivos no podían explicar la importancia de los resultados (4).
Defectos del estudio
Una de las críticas más frecuentes a la investigación psi es que la mayoría de controles tiene errores metodológicos. Se afirma que esas instancias mal diseñadas y ejecutadas explican muchos resultados positivos; por ende, si se descartaran dichos ensayos, las secuelas favorables desaparecerían.
Afortunadamente, el metanálisis proporciona una técnica para determinar en qué medida los traspiés metodológicos pueden dar cuenta de desenlaces satisfactorios. Cada estudio se categoriza según el grado de presencia de un defecto concreto, y luego estas calificaciones se correlacionan con los productos del control. De esta manera, las congruencias positivas más grandes entre la presencia de fallas y resultados exitosos respaldarían el reclamo de que aquéllos se deben simplemente a fallas del estudio. Uno de los engaños más graves en la investigación psi es la fuga sensorial, en que un sujeto es capaz de adquirir conocimiento del objetivo por medio de sentidos ordinarios, ya sea sin percatarse o recurriendo a trampas intencionales.
Fuga sensorial
A través de privación sensoria y habitáculos acústicamente sellados, el diseño Ganzfeld tiende a minimizar cualquier oportunidad de fuga sensorial del objetivo. Sin embargo, los críticos plantearon que si los experimentadores que tratan con sujetos conocen el objetivo, de alguna forma pueden sesgar la elección de éstos últimos. Un estudio contenía ese lapsus, pero en realidad los sujetos obtuvieron puntuaciones levemente por debajo de la probabilidad. Otra opción de fuga sensorial es si la imagen física usada por el remitente se incluye en el conjunto de imágenes entregadas al receptor para que las evalúe, y así tal vez éste pueda darse cuenta consciente o inconscientemente de que la figura meta haya sido manipulada. Esto se conoce como "hipótesis de los dedos grasientos", y aunque los controles Ganzfeld contemporáneos utilizan grupos duplicados de objetivos, no fue así en algunos de los primeros estudios.
Hyman y Honorton concluyeron que no existía un vínculo sistemático entre las fallas que posiblemente condujeran a una fuga sensorial y la resultante del ensayo. Charles también informó que, incluso si se descartaran los testeos que no emplearon conjuntos de objetivos duplicados, las respuestas seguían siendo muy significativas, con probabilidades de aproximadamente 100.000 a uno (5).
Aleatorización inadecuada
Luego Hyman concentró sus reparos en lo que, según él, constituían errores en los procedimientos aleatorios. Esta práctica es importante en los experimentos Ganzfeld, e implica dos aspectos: a) cada objetivo potencial debe tener las mismas posibilidades de ser seleccionado, y b) cada objetivo no debe aparecer en una posición predecible, cuando se muestra al sujeto el conjunto de cuatro imágenes-objetivo al final de la sesión.
Hyman aseguró descubrir una relación importante entre los defectos de la aleatorización y los desenlaces exitosos, mientras Honorton dijo que no existía tal vínculo. La fuente del disenso se remonta a definiciones contradictorias de equívocos, y quizá en esta parte del análisis se adscribiría a diferencias de sesgo. Después de todo, Hyman es un escéptico confirmado desde hace mucho tiempo, y Honorton había estado efectuando investigaciones psi durante décadas.
Sin embargo, ninguno de los diez participantes en el debate publicado en 1986 aprobó las conclusiones de Hyman, mientras que cuatro no parapsicólogos -dos estadísticos y dos psicólogos- convergieron explícitamente con el parámetro de Honorton (6). David Saunders, estadístico en psicología, fue uno de los primeros profesionales independientes en abordar el estudio de fallas por Hyman, y concluyó que "todo el análisis no tiene sentido" (7).
No obstante y si bien muchos han argumentado históricamente que los equívocos de proceso pueden explicar resultados positivos en controles psi, el análisis por Hyman fue pionero en cuantificar realmente el nexo entre errores y respuestas significativas. En cualquier caso, él continuó insistiendo en que había vínculos entre la aleatorización inadecuada y los frutos del estudio, pero admitía que "la base de datos actual no respalda ninguna conclusión firme" entre ambos aspectos (8).
Como se mencionó anteriormente, diez críticos y partidarios adicionales de la parapsicología añadieron comentarios sobre el debate. En su mayoría, los críticos no estaban convencidos, pero hubo una salvedad notable: el matemático inglés Christopher Scott -y conocido escéptico- describió el razonamiento de Honorton como "el argumento más convincente sobre la existencia de PES [Percepción Extra-Sensorial] que he encontrado hasta ahora" (9).
El "Comunicado Conjunto"
Quizás el evento más atípico en la siguiente ronda del debate fue un "comunicado" del que eran coautores Hyman y Honorton. En lugar de seguir con la discusión, crearon un apéndice que comenzaba enumerando sus diferencias y puntos de acercamiento: "Estamos de acuerdo en que existe un efecto general significativo en esta base de datos, que no puede explicarse razonablemente por informes selectivos o análisis múltiples. Seguimos discrepando sobre el nivel en que el resultado constituye evidencia de psi, pero pensamos que el veredicto final aguarda la iniciativa de experimentos futuros realizados por una gama más amplia de investigadores, y con arreglo a estándares más estrictos" (10).
Luego describieron esos parámetros imprescindibles con que deberían ejecutarse futuros testeos Ganzfeld. Estos incluían férreas precauciones de seguridad contra fugas sensoriales y posibles fraudes, pruebas requeridas de los métodos de aleatorización, y la insistencia en documentar detalladamente los procedimientos experimentales, las técnicas aleatorias y el estado del control, ya sea que se destinara a confirmar hallazgos previos o investigar condiciones nuevas. Uno de los colegas parapsicólogos de Honorton señaló que “[Charles] estaba especialmente interesado en lograr que Hyman aceptara públicamente dichos criterios, pues los pseudoescépticos son conocidos por cambiar las reglas del juego tras cumplirse todas las objeciones anteriores, y cuando los nuevos experimentos continúan proporcionando resultados positivos" (11).
En este punto cabe subrayar lo extraordinario de la discusión, ya que marcó una gran diferencia en los intercambios retóricos habituales entre los parapsicólogos y sus críticos. Poco antes de las primeras rondas, Hyman escribió: “El nivel del debate en los últimos 130 años ha sido una vergüenza para todos quienes creen que los académicos y científicos se adhieren a estándares de racionalidad y juego limpio” (12).
Tras publicarse el anuncio conjunto, el psicólogo Robert Rosenthal señaló: “Los parapsicólogos y científicos en general mantienen una enorme deuda de gratitud con Ray Hyman y Charles Honorton por su cuidadoso y extenso trabajo analítico y meta-analítico sobre el problema Ganzfeld. Su intercambio generó una relación de claroscuros especialmente llamativa, y muchas de las cuestiones importantes ahora se han puesto de relieve con audacia" (13).
También es destacable el final de la segunda ronda mediante dicho comunicado, pues marcó la primera vez que un parapsicólogo y un crítico colaboraron en una declaración de esta índole. Ahora se preparaba el escenario para ver si futuros ensayos Ganzfeld -practicados de acuerdo con estándares más rigurosos- continuarían proporcionando efectos indicativos. Pero antes que se diera a conocer el producto de los nuevos experimentos, ocurrió un incidente muy extraño.
El informe del Consejo Nacional de Investigaciones [EE.UU.]
“Quizás nuestros corolarios más sólidos se encuentren en el área de la parapsicología”, manifestó el orador leyendo su discurso preparado. Los asistentes permanecían en silencio cuando aquél hizo una pausa para lograr un ligero efecto dramático, y prosiguió: "El comité no encuentra ninguna justificación científica en las investigaciones realizadas durante 130 años para la existencia de fenómenos parapsicológicos" (14).
Los extractos corresponden a la perorata de John Swets en diciembre de 1987, ante los periodistas que repletaban el lugar. Swets era presidente de un comité creado por el Consejo Nacional de Investigación (NRC), cuyo cometido era evaluar diversas técnicas de mejoramiento de desempeño humano, y en las que estaba interesado el ejército norteamericano. Así, se organizó la conferencia para informar las secuelas de ese proyecto de dos años y que costó casi medio millón de dólares.
Tres años antes, el Instituto de Investigación del Ejército [Army Research Institute o ARI] pidió a dicho Consejo -una extensión de la Academia Nacional de Ciencias- que abordara fenómenos como el aprendizaje durante el sueño, visualizaciones guiadas, meditación, telepatía y clarividencia. Con vistas a garantizar equidad, el ARI generalmente nombraba a un observador imparcial a cargo de monitorear los contratos de investigación, pero en este caso designaron al doctor George Lawrence, un psicólogo militar civil con historial opuesto a la investigación psi. Por ejemplo, junto con Ray Hyman tuvo un rol decisivo al suprimir un proyecto de parapsicología en Stanford, financiado por el Pentágono en 1972 (15), y cuando el Consejo empezó a formar subcomités para explorar las diferentes áreas, señalaron a Hyman para comandar el grupo de parapsicología. En el momento en que Hyman ocupaba ese cargo, era además miembro activo del consejo ejecutivo del CSICOP.
Los únicos estudios psi evaluados en el reporte fueron aquéllos de Ganzfeld, y la apreciación del NRC se fundamentaba en el metanálisis por Hyman. Recordemos que dos años antes coincidía con Honorton en que “hay un efecto global significativo en esta base de datos que no puede explicarse razonablemente por informes selectivos o análisis múltiples”, y que “varios investigadores produjeron resultados significativos” (16); pues bien, ninguno de esos puntos se menciona en dicha reseña. Durante la conferencia de prensa, Hyman anunciaba que "la mala calidad en la investigación psi fue una sorpresa para todos nosotros, y creíamos que el trabajo terminaría siendo mejor" (17).
El comité del NRC solicitó informes de especialistas externos, pero en parapsicología no se consultó a ningún profesional del área; en cambio, encargaron un reporte al psicólogo James Alcock, quien como Hyman, también es miembro del CSICOP y ampliamente conocido por sus libros y artículos que atacan los trabajos en parapsicología.
También se pidió un dictamen al psicólogo Robert Rosenthal (Universidad de Harvard), mundialmente célebre en evaluar afirmaciones de estudios controvertidos en ciencias sociales, y junto con Monica Harris, preparó un documento sobre la calidad de los exámenes en cinco áreas abordadas por el comité. Refutando las opiniones de Hyman ante la prensa, escribieron que de esos cinco ámbitos “sólo los estudios Ganzfeld en PES cumplen con los requisitos básicos de un diseño experimental sólido" (18), y concluyeron: "La situación para el dominio de Ganzfeld parece razonablemente clara. Creemos que sería inverosímil considerar los datos nulos [esto es, inferir que los resultados se deben al azar] dada la p [probabilidad] combinada de estos 28 estudios (...). Cuando la tasa de precisión esperada bajo el valor nulo es 1/4, estimamos que el promedio obtenido es aproximadamente 1/3" (19).
En otras palabras, la pareja declaró que los resultados Ganzfeld no eran azarosos, y el índice de exactitud rondaba el 33%, cuando se esperaría un 25 si la "suerte" fuera el único motivo. Increíblemente, John Swets llamó a Rosenthal y le exigió que retirara el apartado que era favorable a la parapsicología, mas el autor se negó. En el relatorio final de la NRC, dicho artículo se cita sólo en las diversas secciones que tratan temas no relacionados con parapsicología, y tampoco se menciona nada en la parte que trata sobre ese tópico.
El psicólogo John Palmer, Charles Honorton y Jessica Utts, profesora de estadística en la Universidad de California (Davis), concibieron un rebatimiento amplio y detallado contra el informe del comité. Este escrito llevó al senador estadounidense Claiborne Pell a solicitar que la Oficina de Evaluación Tecnológica del Congreso emprendiera una indagatoria con un grupo más sensato. Su iniciativa dio lugar a un taller celebrado el 30 de septiembre de 1988, que reunió a parapsicólogos, críticos y expertos en campos vinculantes. El reporte de la instancia concluyó que la parapsicología necesita "una audiencia más justa en un espectro más amplio de la comunidad científica, para que los factores emocionales no impidan el análisis objetivo de resultados experimentales" (20).
Mucho más revelador fue un artículo escrito al año siguiente -como desafío al NRC- por el coronel retirado John Alexander, quien formó parte de la investigación castrense sobre varios temas perquiridos en el comité:
"Me desempeñaba como informador a los miembros de la junta mientras investigaron el Informe EHP [Enhancing Human Performance]. También fui encargado de Tecnología Humana Avanzada para el Comando de Seguridad e Inteligencia del Ejército (1982-1984), y durante la preparación de ese documento dirigí la Oficina de Conceptos de Sistemas Avanzados, en el Comando de Laboratorio del Ejército estadounidense. Creo tener buenas aptitudes para revisar las conclusiones del comité. Muchas organizaciones del Ejército ya venían experimentando con diversas técnicas para mejorar el desempeño humano, y con frecuencia habían visto resultantes muy llamativas (...). Varias personas en la alta dirección del Ejército consideraron que contratar un organismo tan prestigioso como la NRC (...) proporcionaría un informe creíble en que se podría basar la administración de fondos públicos para los cometidos de investigación militar, en el campo de la mejora del desempeño humano.
La tarea de administrar el contrato recayó en la ARI. Fueron ellos quienes propusieron que el doctor George Lawrence, psicólogo civil del Ejército con experiencia en biorretroalimentación, fuera Representante Técnico de Oficiales de Contratación (COTR), es decir, un observador imparcial que no participa en el estudio y garantiza que sea técnicamente sólido.
Desafortunadamente (...) Lawrence estaba lejos de ser ecuánime, pues tenía prontuarios por su postura firme y pública contra muchos ámbitos de análisis. De hecho, en una asignación previa con la Agencia de Proyectos de Investigación Avanzada de Defensa (DARPA), Lawrence tuvo un rol gravitante en el bloqueo de fondos para investigación psíquica (psi) en el Instituto de Stanford (SRI) (...). Para lograrlo, Lawrence había acudido al SRI con Ray Hyman, un conocido crítico de los fenómenos psi (...). Ambos terminaron efectivamente con la financiación de DARPA para el SRI, que era la única pesquisa patrocinada por el gobierno en ese momento.
Antes de organizarse la junta directiva del EHP, Lawrence me dijo en 1984 que trataba de incorporar a Hyman al mismo grupo, y lo consiguió. El problema respecto a la credibilidad del Informe es que Ray era la única persona asignada que demostró cierta familiaridad con la literatura de investigación parapsicológica, y desde el principio se conocía su postura incrédula. Hyman es miembro fundador del CSICOP, el autoproclamado 'grupo de vigilancia' que se opone a los estudios parapsicológicos (...)".
"Por lo anterior, cuestioné desde el inicio los inconvenientes de 'sesgo' y 'objetividad' aplicables a la génesis del comité. Parece claro que Lawrence, y luego Hyman y James Alcock (otro fundador del CSICOP y crítico de estos estudios) siguieron un camino intencional para desprestigiar el trabajo en parapsicología (...). A lo largo de la sección correspondiente del Informe EHP, la junta se refirió sólo a aquellos artículos publicados que respaldaban su posición, e ignoró el material favorable (...)".
"Entonces, ¿qué debemos colegir sobre el reporte EHP? (...). Primero, es muy relevante que un conjunto particular de desacreditadores no pudo encontrar ninguna 'prueba inconcusa' ni 'alternativa plausible' a la hipótesis psi (...). Segundo, deberíamos preocuparnos por que el tribunal científico más alto del país operó de manera tan parcial y dura, y no parece haber ningún canal para apelar o revisar su trabajo. ¿Y a qué le temen? ¿Es tan 'urgente' amparar la ortodoxia científica rehusando pruebas y suprimiendo opiniones contrarias?" (21).
Los estudios Autoganzfeld
Poco después de aparecer el relatorio por la Oficina del Congreso, se presentaron las secuelas de nuevos experimentos Ganzfeld que cumplían a cabalidad con los estándares rígidos descritos en el Comunicado Adjunto. Desde 1983, Honorton y sus colegas trabajaron en una nueva serie de testeos controlados por computadora o "Autoganzfeld", la cual continuó hasta 1989 cuando la ausencia de fondos obligó a cerrar el laboratorio de Honorton.
Los principales cambios fueron el uso de ordenadores para regular los ensayos, y la introducción de cámaras de video en circuito cerrado para presentar fragmentos de películas breves e imágenes estáticas como objetivos. Durante la sesión, ni el experimentador ni el receptor podían monitorear los eventos al interior de la sala del emisor, que también estaba aislada acústicamente y protegida contra influjos electromagnéticos.
Los objetivos dinámicos consistieron en ochenta fotografías y ochenta videos cortos, incluyendo pistas de sonido, todos grabados en cinta de video. Puesto que el metanálisis de los experimentos previos reveló un nexo positivo entre la tasa de aciertos y el uso de estos blancos, los diseñadores del Autoganzfeld deseaban probar si el empleo de aquéllos generaría mayores índices de éxito.
Los controles automatizados y recintos herméticos estaban concebidos para neutralizar fugas sensoriales por accidente o trampa intencional. Además, se incluyó a dos magos de escenografía que se especializaban en fingir aptitudes psi, con miras a comprobar si el Autoganzfeld tenía susceptibilidad a engaños o fraudes. Uno de ellos era Ford Kross, funcionario de la Asociación de Artistas Psíquicos, quien declaró por escrito: "En mi capacidad profesional como mentalista, revisé el sistema automatizado Ganzfeld en los Psychophysical Research Laboratories [PRL], y descubrí que proporciona una excelente seguridad contra el engaño de los sujetos" (22). El otro mago fue Daryl Bem, psicólogo de la Universidad de Cornell, quien convergió con las apreciaciones de su homólogo sobre los procedimientos de seguridad, y colaboró con Honorton en un artículo atañente a las experiencias Ganzfeld de 1994 (23). Bem ha ejercido como mentalista durante muchos años y también forma parte de la misma Asociación que Kross.
Resultados
En los seis años del Autoganzfeld participaron 100 hombres y 140 mujeres como receptores en 354 sesiones, con edades comprendidas entre 17 y 74 años, mientras que los estudios fueron conducidos por ocho encargados diferentes, incluyendo a Honorton.
Durante las once pruebas que totalizaron dicho número de sesiones, se obtuvieron 122 aciertos directos para una tasa de éxito global de 34%, cuando se esperaba un 25% por casualidad; así, estas secuelas son casi idénticas al promedio del 35% en el metanálisis de 1985. El nuevo intervalo de confianza del 95% osciló entre 30 y 39%, y las probabilidades de que esas resultantes no se producían por azar son de casi 45.000 a 1.
Asimismo, los testeos abarcaron todas las sesiones efectuadas a lo largo de seis años; en otras palabras, no existía un “archivador” de estudios no reportados. Se confirmó plenamente la hipótesis de que los objetivos dinámicos rendían mayores tasas de acierto, y en general, las sesiones que los empleaban arrojaron promedios satisfactorios del 40%, frente al 27% con objetivos estáticos (24).
Otras consecuencias incluyeron la corroboración de nexos entre el desempeño psi y varias características personales de los receptores, como extraversión, vivencias psi previamente informadas y la creatividad o dotes artísticos. Todos esos factores predijeron significativamente los éxitos, pero la relación con capacidades artísticas fue particularmente notoria. En una sesión con veinte estudiantes universitarios de la Escuela Julliard de Artes Escénicas, los sujetos lograron acertar en 50%, uno de los coeficientes más altos conocidos para una sóla muestra. Es más: seis de ocho músicos (75%) identificaron objetivos correctamente, con probabilidades de casi 250 a 1,25.
Y tenía que salir el melindroso fingido...
Años antes, Honorton y Hyman subrayaron la necesidad de incluir criterios estrictos y una mayor gama de expertos en estudios de parapsicología; así, las pruebas Autoganzfeld cumplieron con esas demandas. Sus frutos demostraron ser estadísticamente significativos y consistentes con aquéllos de la base de datos anterior; además, hubo enlaces entre variables conceptualmente relevantes y el desempeño psi, también replicando hallazgos precedentes. Hyman comentó: "Los experimentos de Honorton han producido resultados intrigantes (...). Si otros laboratorios independientes pueden generar secuelas parecidas con las mismas relaciones e igual atención a una metodología rigurosa, entonces es posible que la parapsicología finalmente haya capturado a su esquiva presa" (26).
Como implica el autor, los controles Autoganzfeld no estaban adheridos al parámetro de que las recreaciones fueran hechas por "un grupo más amplio de científicos", pero en 1995 las resultantes fueron repetidas por tres laboratorios adicionales. El primer segmento de la Tabla 7.1 muestra aquéllas de las primeras iteraciones Autoganzfeld en los Laboratorios de Investigación Psicofísica de Honorton (Princeton, Nueva Jersey), y los otros identifican las respuestas de laboratorios en tres países diferentes.
Tabla 7.1. Replicaciones Ganzfeld a partir de 1995.
En 1995, Dick Bierman (Universidad de Amsterdam) informaba que en cuatro experimentos las tasas de acierto llegaron al 34, 37,5, 40 y 36% para 124 sesiones, y el índice de satisfacción combinada fue de 37% (27). El mismo año, Robert Morris, Kathy Dalton, Deborah Delanoy y Caroline Watt divulgaron el corolario de 97 pruebas en la Universidad de Edimburgo (28), y finalmente Broughton y Alexander describían las consecuencias de 100 controles en el Instituto de Parapsicología de Carolina del Norte (29).
Los 28 estudios del metanálisis primigenio acarrearon una tasa de éxito combinada del 35%; más tarde, Robert Rosenthal la estimó en cerca del 33%, cuando se esperaba un 25 por obra del "azar". Como se puede ver en la Tabla 7.1, el promedio general de aciertos combinados en todos los experimentos alcanza un 34%, y Jessica Utts declaró: "Se trata de un efecto robusto, que si no ocurriera en un ámbito tan inusual, la ciencia ya no lo cuestionaría como fenómeno real. Es poco factible que los problemas metodológicos puedan explicar la notable consistencia de los resultados" (30).
Un nuevo "reto"
En 1999 apareció un "desafío" a las pretensiones de Honorton para replicar el Autoganzfeld. Los psicólogos Julie Milton y Richard Wiseman publicaron un breve artículo donde exhibían resultados de treinta estudios Ganzfeld desde 1987, el comienzo escogido para que “los diseñadores de las pruebas tuvieran acceso a Hyman y las directrices de Honorton (1986)" (31). Dichos controles se obtuvieron de catorce artículos escritos por diez personas de siete laboratorios, que comprenden en total 1198 sesiones; no se utilizó ningún criterio para seleccionar los ensayos, y sus autores siguieron una política de "incluir en nuestra base de datos todos los estudios psi que utilizaron la técnica Ganzfeld" (32).
El promedio de éxito combinado de esos 30 experimentos llega al 27,5%, un guarismo menor a los intervalos de confianza del 95% de los dos primeros y con más relevancia. Milton y Wiseman concluyeron: "Los nuevos estudios Ganzfeld muestran un tamaño del efecto cercano a cero, y una acumulación general estadísticamente no significativa (...). Este desdoro en la replicación podría indicar que los resultados Autoganzfeld eran falsos (...). Alternativamente, las diferencias de secuelas entre los Autoganzfeld y la nueva base de datos podrían deberse a que ésta última no se llevó a cabo en condiciones psi-conducentes. Cualquiera que sea el motivo, las resultantes Autoganzfeld no han sido replicadas por un 'espectro más amplio de investigadores', y no se puede considerar que el paradigma homónimo constituya evidencia sólida del funcionamiento psíquico" (33).
Sin embargo, más tarde se develó que Milton y Wiseman viciaron su análisis estadístico al no considerar el tamaño de la muestra. Dean Radin sumó el número total de aciertos y ensayos en esos treinta experimentos (el recurso estándar para realizar metanálisis), y encontró un producto estadísticamente significativo con probabilidades de 20 a 1.
Los treinta ensayos elegidos por la dupla variaron en tamaño desde cuatro hasta cien, pero se sirvió de un modo estadístico que ignoró el factor N (muestra). Supongamos que tenemos tres estudios, dos con N= 8 y dos aciertos (25%) y un tercero de N= 60 con 21 éxitos (35%). Si descartamos la cifra de muestras, el índice no ponderado de aciertos es sólo del 28%, pero el promedio reunido de todas las secuelas satisfactorias es poco menos del 33%, y en términos simples, este fue el equívoco del dueto "incrédulo", pues si hubiera sumado aciertos y errores, realizando luego una prueba-t simple y unidireccional, encontraría productos significativos al nivel del 5%. Como Utts observó más tarde, si Milton y Wiseman hubieran hecho el testeo binomial exacto, las resultantes habrían sido llamativas a un nivel inferior al 4%, con probabilidades contra el azar de 26 a 1.
Otro fallo del "reto" consistió en no incluir un estudio prolongado y de gran éxito por Kathy Dalton debido a una fecha límite arbitraria, a pesar de que se publicó casi dos años antes que el artículo de dicha pareja (34); tuvo amplia discusión entre los parapsicólogos, fue parte de una tesis doctoral en la universidad de Julie Milton, y se presentó en una conferencia presidida por Wiseman dos años antes de que ambos difundieran su "protesta".
En el Comunicado Conjunto, Hyman y Honorton pidieron a los futuros investigadores Ganzfeld, como parte de sus “protocolos más rigurosos”, que documentaran claramente el estado del experimento, es decir, si se pretendía confirmar hallazgos anteriores o pesquisar condiciones nuevas (35). La tercera falla por Milton y Wiseman fue que agrupaba todos los controles, independiente de si el estatus de cada uno era asertivo o exploratorio. En otras palabras, no hicieron ningún intento de definir el nivel en que los testeos individuales cumplían con el precepto Ganzfeld estándar.
El artículo de Milton-Wiseman abrió un vigoroso debate en línea, que culminó con un texto publicado en el Journal of Parapsychology, escrito conjuntamente por un psicólogo y dos parapsicólogos. Tras un breve resumen de la discusión hasta ese momento, Bem, Palmer y Broughton señalaron: "Una de las observaciones realizadas durante el debate fue que varios estudios que contribuyeron con puntuaciones z-negativas al análisis [es decir, las secuelas fueron menores de lo esperado por casualidad] habían utilizado procedimientos que se desviaban notablemente del protocolo Ganzfeld estándar, y semejante evolución no es mala ni fortuita. Muchos investigadores psi creen que la confiabilidad del método básico está suficientemente bien establecida, para justificar su uso como herramienta para una mayor exploración psi. De esa manera, y en lugar de seguir efectuando réplicas precisas, han ido modificando el proceso y extendiéndolo a territorio desconocido. No es sorprendente que tales desvíos del repriz exacto tengan un mayor riesgo de fallas; por ejemplo, en vez de emplear estímulos visuales, Willin ajustó el procedimiento Ganzfeld para ver si los emisores podían comunicar objetivos musicales a los receptores, y no fue así. Cuando esos estudios se incluyen en un metanálisis indiferenciado, el tamaño del efecto general se reduce, y malévolamente, el procedimiento Ganzfeld se convierte en víctima de su propio éxito" (36).
Bem, Palmer y Broughton se propusieron verificar su hipótesis de que las mermas en puntuaciones promedio se debían a que los controles eran explorativos y no confirmatorios. Se pidió a tres evaluadores independientes no familiarizados con estudios Ganzfeld recientes -y por ende desconocían el producto de los mismos- que calificaran el nivel en que cada uno de los testeos nuevos se apartaba del protocolo estándar. Luego se reexaminó la base de datos para probar el supuesto de que las tasas de aciertos estaban correlacionadas positivamente con el grado en que los procedimientos experimentales se adhirieron a los formalismos. Los evaluadores asignaron una clase a cada uno de los 40 estudios, y se promediaron sus categorías. La clasificación osciló de 1 a 7, donde éste último indica el mayor grado de cumplimiento del protocolo, como se describe en dos artículos por Honorton a principios de la década '90.
Resultados
Según la hipótesis, las tasas de éxito se correlacionaban significativamente con el rango en que las técnicas experimentales se ajustaron a los principios establecidos. Si definimos como “estándar” a aquellos estudios que se ubicaron por sobre el punto medio de la escala (4), entonces las recreaciones modélicas obtuvieron aciertos generales del 31,2%, mientras que los no paradigmáticos produjeron sólo 24%. Las secuelas son aún más espectaculares si consideramos sólo los controles de replicación clasificados en el puesto 6 y superiores: esas 21 pruebas (más de la mitad de la muestra) lograron un promedio de satisfacción general del 33%, casi igual a las instancias previas.
No tiene mucho sentido realizar más iteraciones, y varios de quienes tengan un compromiso previo con el pseudoescepticismo tal vez jamás cambien sus asertos públicos, sin importar cuántos estudios se implementen. Sólo se podrán lograr avances reales si los investigadores están dispuestos a explorar nuevas fronteras.
Las tablas adjuntas evidencian que las resultantes fueron repetidas por múltiples investigadores en diferentes laboratorios y culturas, con tasas de acierto similares. En 1996 Hyman escribió: “Los argumentos a favor del funcionamiento psíquico parecen mejores que nunca (...) no tengo una explicación preparada para estos efectos observados” (37), y así los escépticos de camelo perdieron la contienda.
Tabla 7.2. Reiteraciones desde 1996.
Tabla 7.3. Sinopsis (1974-1999).
Notas sobre el tamaño del efecto y la muestra
Vimos que los investigadores aislaron ciertas variables, como la capacidad artística y el uso de objetivos dinámicos, que parecen mejorar el rendimiento psi más allá de lo que se esperaría normalmente; pero hasta hoy el promedio global de aciertos se mantiene muy constante -alrededor de 33% frente al 25% por azar-, lo cual corresponde en términos generales a un éxito cada tres sesiones, mientras que la "suerte" predeciría uno de cada cuatro.
Puede que esto no sea muy impresionante, pero es aleccionador comparar los resultados con aquéllos de un importante ensayo médico, que buscaba definir si la aspirina reducía las chances de ataques al miocardio. El estudio se interrumpió luego de seis años, porque ya estaba claro que tomar dicho fármaco cumplía ese objeto, y se consideró injusto mantener el tratamiento alejado del grupo control que consumía placebos. Los frutos de esas pruebas se celebraron como un "gran avance científico", pero al final se descubrió que ingerir aspirina reduce la probabilidad de infartos en sólo 0,8%, un guarismo casi diez veces menor que el efecto observado en los experimentos Ganzfeld (38).
La prolongada controversia Ganzfeld se explica en parte porque la magnitud de las secuelas no es "lo suficientemente grande" para ser advertida, y sin ayuda de estadísticas. Cuando los tamaños del efecto son reducidos, se necesitan muestras grandes para proporcionar el poder estadístico con tal de percibir la resultante. El testeo de la aspirina se realizó con más de 22.000 participantes, pero si hubiera comportado 2200, las consecuencias no habrían tenido significación estadística.
Si el verdadero índice de aciertos en las pruebas Ganzfeld fue sólo 33% frente al 25% esperado, entonces un experimento con treinta sesiones (promedio de los 28 estudios del metanálisis de 1985) tiene aproximadamente una probabilidad entre seis de encontrar un efecto llamativo, al nivel del 5%; y con cincuenta, las posibilidades llegan a una de cada tres. De esta manera, hay que expandir el porte de la muestra a cien sesiones para alcanzar un punto de equilibrio, donde las chances quedan en 50/50 de hallar respuestas apreciables (39).
Algunos "escépticos" semejan tener problemas para asimilar la importancia del tamaño de la muestra, o tal vez deciden ignorarlo. Jessica Utts complementa: “Cuando se trata de un efecto pequeño o mediano, se necesitan cientos o miles de intentos para establecer una 'significancia estadística' (...). A pesar de las continuas protestas por Hyman sobre la falta de repetibilidad en parapsicología, nunca he visto una iniciativa escéptica de concretar experimentos con suficientes ensayos para acercarse siquiera a asegurar el éxito" (40).
Referencias
1. Honorton, “Rhetoric over Substance", p. 206; Bem y Honorton, “Does Psi Exist?”
2. Radin, The Conscious Universe, p. 79.
3. Blackmore, “The Extent of Selective Reporting of ESP Ganzfeld Studies”.
4. Hyman y Honorton, “A Joint Communiqué", p. 352.
5. Honorton, “Meta-analysis of Psi Ganzfeld Research: A Response to Hyman”; Radin, The Conscious Universe, p. 81–82.
6. Harris y Rosenthal, “Postscript to ‘Human Performance Research’”; Saunders, “On Hyman’s Factor Analyses”; Utts, “Rejoinder”.
7. Saunders, “On Hyman’s Factor Analyses”, p. 87.
8. Hyman y Honorton, “A Joint Communiqué”, p. 353.
9. Scott, “Comment on the Hyman-Honorton Debate”, p. 349.
10. Hyman y Honorton, “A Joint Communiqué”, p. 351.
11. Radin, The Conscious Universe, p. 85.
12. Hyman, “A Critical Overview of Parapsychology”.
13. Rosenthal, “Meta-analytic Procedures and the Nature of Replication", p. 333.
14. Descrito en Broughton, Parapsychology, p. 322. Ver también “Academy Helps Army Be All That It Can Be” (noticias y comentarios); Druckman y Swets, Enhancing Human Performance.
15. Alexander, “Enhancing Human Performance”, p. 12.
16. Hyman y Honorton, “A Joint Communiqué”, p. 352.
17. “Academy Helps Army Be All That It Can Be”.
18. Harris y Rosenthal, “Human Performance Research”, p. 53.
19. Ibídem, p. 51.
20. “Report of a Workshop on Experimental Parapsychology”.
21. Alexander, “Enhancing Human Performance”.
22. Bem y Honorton, “Does Psi Exist?”
23. Ibídem.
24. Utts, “Replication and Meta-analysis in Parapsychology".
25. Bem y Honorton, “Does Psi Exist?” Ver también Schmeidler, Parapsychology and Psychology; Dalton, “Exploring the Links”; Krippner, “Creativity and Psychic Phenomena”; Palmer, “Extrasensory Perception”; Honorton, Ferrari y Bem, “Extraversion and ESP Performance”.
26. Hyman, “Comment”, p. 392.
27. Bierman, “The Amsterdam Ganzfeld Series III & IV”.
28. Morris, Dalton, Delanoy y Watt, “Comparison of the Sender/No Sender Condition in the Ganzfeld".
29. Broughton y Alexander, “Autoganzfeld II”.
30. Utts, “An Assessment of the Evidence for Psychic Functioning”, p. 21.
31. Milton y Wiseman, “Does Psi Exist?”, p. 388.
32. Ibídem, p. 388.
33. Ibídem, p. 391.
34. Dalton, “Exploring the Links”.
35. Hyman y Honorton, “A Joint Communiqué”, p. 361.
36. Bem, Palmer y Broughton, “Updating the Ganzfeld Database”, p. 208.
37. Hyman, “Evaluation of Program on Anomalous Mental Phenomena”.
38. Steering Committee of the Physicians Health Research Group, “Preliminary Report”.
39. Utts, “The Ganzfeld Debate”.
40. Utts, “Response to Ray Hyman’s Report”, p. 3.