El hombre anumérico (18 page)

Read El hombre anumérico Online

Authors: John Allen Paulos

Tags: #Ensayo, Ciencia

BOOK: El hombre anumérico
4.85Mb size Format: txt, pdf, ePub

Pensemos en los problemas que conlleva una encuesta telefónica. ¿Afectará al resultado el hecho de haber descartado de entrada las casas que no tienen teléfono? ¿Qué porcentaje de personas se negará a contestar o colgará sin más cuando se entere de que se trata de una encuesta? Como los números se seleccionan al azar, ¿qué pasa si el teléfono al que se llama es una oficina? ¿Qué pasa si no hay nadie en casa o si contesta un niño? ¿Cómo influye en las respuestas el sexo (la voz o los modales) del entrevistador telefónico? Cuando registra las respuestas, ¿el entrevistador es siempre cuidadoso? ¿Es siempre honesto? ¿Es aleatorio el método para escoger números y centrales telefónicas? ¿Sugieren las preguntas alguna de las posibles respuestas? ¿Son comprensibles? ¿Qué respuesta cuenta si hay más de un adulto en casa? ¿Qué método se sigue para ponderar los resultados? Si la encuesta se refiere a un tema respecto al cual las opiniones varían rápidamente, ¿cómo afecta a los resultados el hecho de que la realización de la encuesta haya durado cierto tiempo?

Las encuestas basadas en entrevistas personales presentan también dificultades parecidas. Entre los defectos más comunes de las encuestas basadas en entrevistas individuales tenemos el empleo de un tono insinuante o la influencia del tipo de preguntas sobre el encuestado. Por otra parte, una de las preocupaciones más importantes en las encuestas por correo es evitar que la muestra se autoseleccione, al ser más probable que contesten los individuos más comprometidos y estimulados, o los pertenecientes a cualquier otro grupo atípico. (Tales muestras autoseleccionadas reciben a veces el nombre más sincero de «grupo de presión».) La famosa encuesta de 1936 del
Literary Digest
que predijo que Alf Landon ganaría a Franklin Roosevelt por un margen de tres a dos estaba mal hecha, porque sólo el 23% de los que recibieron cuestionarios los contestaron, y estas personas eran generalmente de las clases más altas. Un error parecido sesgó la encuesta de 1948 que predijo que Thomas Dewey ganaría a Harry Truman.

Es escandalosa la inclinación de los diarios y revistas a publicar resultados sesgados basados en respuestas a cuestionarios que vienen en el mismo periódico. Estas encuestas informales rara vez van acompañadas de los intervalos de confianza u otros detalles de los métodos seguidos, con lo que el problema de las muestras autoseleccionadas no siempre está claro. Cuando autoras feministas como Shere Hite o la columnista Ann Landers informan que la proporción de sus encuestadas que tienen aventuras amorosas o que preferirían no haber tenido hijos es sorprendentemente alta, tendríamos que preguntarnos automáticamente quién va a contestar más probablemente a tales cuestionarios: una mujer que tenga una aventura o una que esté razonablemente satisfecha, una mujer desesperada por sus niños o una que esté contenta con ellos.

Las muestras autoseleccionadas no nos dan mucha más información que una lista de predicciones correctas hechas por alguien que supuestamente tiene poderes psíquicos. A menos que se tenga una lista completa de las predicciones, o un subconjunto escogido al azar, las predicciones correctas no significan nada. Es seguro que algunas de ellas son ciertas por casualidad. Del mismo modo, a menos que la muestra encuestada sea escogida al azar, y no autoseleccionada, los resultados de la encuesta no significarán gran cosa.

Además de ser consciente del problema de las muestras autoseleccionadas, el consumidor con cultura numérica debería comprender también el problema afín de los estudios autoseleccionados. Si una compañía Y encarga ocho estudios comparativos de las ventajas relativas de su producto y el de la competencia, y siete de los ocho señalan que el de la competencia es mejor, no hay que ser muy listo para adivinar cuál de los estudios citará la compañía Y en sus anuncios de televisión.

Como en los capítulos sobre las coincidencias y la pseudociencia, vemos que el deseo de filtrar y poner énfasis en la información está reñido con el de obtener una muestra aleatoria. Para los anuméricos especialmente, unas pocas predicciones o coincidencias vividas tienen a menudo más peso que una evidencia estadística que, aunque menos impresionante, es más concluyente.

Por todo ello, no comprendo por qué tan frecuentemente se llama encuesta a una colección de perfiles íntimos o de historias personales. Si se hace bien, tal colección es más atractiva (a pesar de que pueda ser menos convincente) que la típica encuesta, y pierde buena parte de su valor si se la envuelve en la mortaja de un sondeo científico.

Obteniendo información personal

La madre del cordero de la estadística está en deducir información sobre una población grande a partir de las características de una muestra pequeña seleccionada al azar. Todas las técnicas empleadas desde la inducción enumerativa de Francis Bacon hasta las teorías del contraste de hipótesis y del diseño experimental de Karl Pearson y R.A. Fisher, padres fundadores de la estadística moderna dependen de esta (ahora) evidente perspicacia. Siguen a continuación varias maneras de obtener información.

La primera de ellas, que quizá cobrará cada vez mayor importancia en una era inquisitiva que sin embargo proclama el valor de la intimidad, permite obtener información delicada de un grupo sin comprometer la intimidad de ninguno de sus miembros. Supongamos que tenemos un grupo grande de personas y queremos descubrir qué porcentaje de ellas ha mantenido cierto tipo de relación sexual, con objeto de determinar qué prácticas llevan al SIDA con mayor probabilidad.

¿Qué podemos hacer? Se pide al encuestado que tome una moneda del bolsillo o del monedero y que la lance al aire. Sin dejar que nadie vea el resultado, ha de mirar si ha salido cara o cruz. Si ha sido cara, ha de contestar con sinceridad a la pregunta:

¿Ha mantenido tal relación sexual, sí o no? Y si sale cruz, simplemente ha de escribir sí. Así pues, una respuesta sí puede significar dos cosas, una totalmente inocua (que ha salido cruz), y la otra potencialmente embarazoso (haber mantenido esa relación sexual). Como el experimentador no puede saber qué significa el sí, es de esperar que los encuestados sean sinceros.

Supongamos que de 1.000 respuestas, 620 son afirmativas. ¿Qué nos dice esto acerca del porcentaje de personas que han mantenido la relación sexual? Aproximadamente 500 de los 1.000 encuestados habrán escrito sí porque les ha salido cruz. Quedan pues 120 personas que han contestado sí de entre las que contestaron con sinceridad a la pregunta (aquellas a las que les salió cara). Por tanto, la estimación del porcentaje de personas que han mantenido esa relación sexual es el 24% (120/500).

El método admite más refinamientos que pueden servir para conocer más detalles, por ejemplo cuántas veces se ha tenido la relación sexual. También admite algunas variantes que se pueden realizar de modo informal, y podría servir a una agencia de espionaje para calcular el número de disidentes de cierta región, o a una agencia publicitaria para estimar el mercado de un producto cuyo atractivo la gente probablemente negará. Los datos en bruto para los cálculos se pueden obtener de fuentes públicas y, trabajados convenientemente, pueden llevar a conclusiones sorprendentes.

Otra manera un tanto poco común de obtener información es la que se conoce como método de pescar-repescar. Supongamos que queremos saber cuántos peces hay en cierto lago. Capturamos cien, los marcamos y los volvernos a soltar. Dejamos transcurrir un tiempo para que se dispersen por el lago, volvernos a pescar otros cien peces y miramos qué fracción de ellos están marcados.

Si los peces marcados son ocho, una estimación razonable es que el 8% de los peces de todo el lago están marcados. Y como este 8% lo forman los cien peces que pescamos y marcamos la primera vez, obtendremos el número de peces del lago resolviendo la siguiente regla de tres: 8 (peces marcados de la segunda muestra) es a 100 (el número de peces de la segunda muestra) igual que 100 (el número total de peces marcados) es a N (el número total de peces del lago). N es, aproximadamente, 1.250.

Hay que tener cuidado, naturalmente, de que el pez marcado no muera por el hecho de haber sido marcado, de que se distribuyan más o menos uniformemente por el lago, de que los marcados no sean sólo los más lentos o los más simplones de los peces, etc. Sin embargo, como manera de obtener una estimación aproximada, la pesca-repesca es un método eficiente, y más general de lo que pudiera sugerir el ejemplo de los peces.

Los análisis estadísticos de obras cuya autoría está en disputa (los libros de
la Biblia
,
The Federalist Papers
[«Documentos federalistas»], etc.) dependen también de métodos ingeniosos similares para recoger datos de fuentes que no están dispuestas a colaborar (porque han muerto).

Dos resultados teóricos

Buena parte del atractivo de la teoría de la probabilidad reside en la inmediatez y en el interés intuitivo de sus problemas prácticos y de los principios sencillos que nos permiten resolver muchos de ellos. Sin embargo, los dos resultados teóricos siguientes tienen una importancia tan fundamental que pecaría de negligencia si no dijera nada de ellos.

El primero es la ley de los grandes números, uno de los teoremas más importantes de la teoría de la probabilidad, a menudo mal entendido. Es un teorema que a veces se invoca para justificar todo tipo de conclusiones extrañas. Dice sencillamente que, a la larga, la diferencia entre la probabilidad de cierto suceso y la frecuencia relativa con la que éste ocurre tiende a cero.

En el caso especial de una moneda no trucada, la ley de los grandes números enunciada por primera vez por Jean Bernoulli en 1713, dice que la diferencia entre 1/2 y el cociente del número total de caras dividido por el número de tiradas se aproxima a cero tanto como queramos, a medida que aumenta el número de tiradas. Recuérdese, sin embargo, de cuando hablábamos sobre los perdedores y las monedas sin truco del Capítulo 2, que esto no significa que la diferencia entre el número total de caras y cruces haya de disminuir a medida que aumenta el número de tiradas; generalmente sucede todo lo contrario. Las monedas sin truco se comportan bien en sentido relativo, pero no en sentido absoluto. Y, contrariamente a lo que se pueda decir en numerosas conversaciones de café, la ley de los grandes números no implica la falacia del jugador: que después de una larga serie de cruces es más probable que salga cara.

Entre otras cosas, esta ley justifica la creencia del experimentador de que la media de un conjunto de mediciones de la misma cantidad ha de aproximarse al verdadero valor de la misma a medida que aumentamos el número de mediciones. También proporciona una base racional a la observación lógica de que si se lanza un dado N veces, la probabilidad de que el número de veces que sale 5 difiera de N/6 es menor cuanto mayor es N.

Resumiendo: la ley de los grandes números proporciona una base teórica para la idea natural de que una probabilidad teórica es una especie de guía para el mundo real, para lo que realmente ocurre.

Según parece, la curva normal o campana describe muchos fenómenos naturales. ¿Por qué? Otro resultado muy importante de la teoría de la probabilidad, conocida como teorema del límite central, nos da la explicación teórica del predominio de esta distribución gaussiana normal (que debe su nombre a Carl Friedrich Gauss, uno de los más grandes matemáticos del siglo diecinueve y de todos los tiempos). El teorema del límite central dice que la suma o la media de un gran conjunto de mediciones sigue una curva normal, incluso en el caso de que cada medición por separado no lo haga. ¿Qué significa esto?

Imaginemos una fábrica que produzca pilas para juguetes, y supongamos que está dirigida por un ingeniero sádico que asegura que aproximadamente el 30% de las pilas se agota en sólo cinco minutos, y que el 70% restante tiene una duración de unas mil horas. Está claro que la distribución de las vidas de estas baterías no es descrita por una curva normal en forma de campana, sino más bien por una curva en U con dos picos, uno en los cinco minutos y el otro en las mil horas.

Supongamos ahora que estas pilas salen de la cadena de montaje ordenadas al azar y se empaquetan en cajas de treinta y seis. Si decidimos determinar la vida media de las pilas de una caja, encontraremos que nos da aproximadamente 700; pongamos 709. Si hacemos lo mismo con las pilas de otra caja de treinta y seis, veremos que da otra vez aproximadamente 700, quizá 687. De hecho, si examinamos muchas de estas cajas, la media de las medias será próxima a 700, y lo que es más impresionante, la distribución de dichas medias será aproximadamente normal (en forma de campana), con la proporción justa de paquetes con vidas medias entre 680 y 700, o entre 700 y 720, etcétera.

El teorema del límite central dice que, bajo una amplia variedad de circunstancias, siempre ocurre esto: las medias y las sumas de cantidades que no están distribuidas normalmente siguen sin embargo una distribución normal.

La distribución normal también aparece en los procesos de medida. Aquí el teorema nos proporciona la justificación teórica del hecho de que las medidas de cualquier cantidad tienden a seguir una «curva de error» normal en forma de campana centrada en el verdadero valor de la cantidad que estamos midiendo. Entre otras cantidades que tienden a seguir una distribución normal tenemos: los pesos y estaturas para una edad determinada, el consumo de agua de una ciudad en un día dado, el grosor de unas piezas mecanizadas, el CI (independientemente de lo que éste signifique), el número de ingresos en un gran hospital en un día dado, las distancias de los dardos al blanco, el tamaño de las hojas, el tamaño del pecho, o la cantidad de refresco servida por una máquina de venta automática. Todas estas cantidades pueden considerarse como suma o media de muchos factores (genéticos, físicos, o sociales) y por tanto el teorema del límite central explica su distribución normal.

Resumiendo: Las medias (o las sumas) de cantidades tienden a seguir una distribución normal, aun cuando las cantidades de las que son media (o suma) no la sigan.

Correlación y causalidad

Correlación y causalidad son dos palabras con significados completamente distintos, pero los anuméricos tienen una tendencia muy fuerte a confundirlas. Es muy frecuente que dos cantidades estén correlacionadas sin que una sea la causa de la otra.

Un modo bastante común de que esto pueda ocurrir es que los cambios en ambas cantidades sean consecuencia de un tercer factor. Tenemos un ejemplo bien conocido en la correlación moderada entre el consumo de leche y la incidencia del cáncer en distintas sociedades. La explicación de la correlación probablemente esté en la prosperidad relativa de dichas sociedades, que comporte tanto un mayor consumo de leche como más cáncer debido a una mayor longevidad. De hecho, cualquier práctica saludable, como beber leche, que tenga una correlación positiva con la longevidad probablemente la tenga también con la incidencia del cáncer.

Other books

The Leopard Prince by Elizabeth Hoyt
Hue and Cry by Patricia Wentworth
The Unsung Hero by Suzanne Brockmann
AGThanksgiving_JCSmith by Jessica Coulter Smith
A Unique Kind of Love by Rose, Jasmine
A Shadow Flame (Book 7) by Jordan Baker
Dangerous Magic by Rickloff, Alix
The Pillars of Rome by Jack Ludlow