Estadística para tecnócratas

16.08.2010

La minería de datos (data mining para los ingleses y para los guays) es una rama de la ciencia que utiliza la estadística y la computación para extraer información relevante, a veces no apreciable a simple vista, de grandes cantidades de datos. Como toda ciencia o tecnología tiene sus aplicaciones buenas y sus no tan buenas. Entre las buenas se encuentran el estudio del ADN -se puede saber si eres más o menos propenso a padecer cierta enfermedad- o las recomendaciones de libros. Entre las no tan buenas están las aplicaciones que les dan seguros y bancos para no darte un crédito o cobrarte más de la cuenta.

El tema es que es una herramienta muy potente que la humanidad utiliza más con fines puramente capitalistas de maximización de beneficio que para fines más bien sociales. Si bien es cierto que la maduración de las técnicas en uno de los frentes puede beneficiar a todos, es ciertamente triste ver como ingenierios, científicos, y otros enseres capacitados se autoaplican el guía burros para no ver -o prospeccionar- qué más se puede hacer.

La última fantástica aplicación viene de las mentes semipensantes de las cárceles de Philadelphia y de Balimore, que han confundido la estadística con la clarividencia, despachando las libertades condicionales en función de lo que diga el oráculo sobre el futuro comportamiento del reo.

Vamos a ver cómo explicamos que esto es, matemáticamente hablando, una gilipollez.

Lo que se hace en estos casos es  elegir un conjunto de variables que modelan al preso, tales como edad,  número de delitos cometidos y su gravedad, sus estudios, su profesión, su barrio, su estado civil, y una serie de variables socioeconómicas relevantes que lo caracterizan. Una vez tenemos los ingredientes hay que cocinarlos. Para ello los metemos como entrada en una función matemática que nos da como resultado la probabilidad de que el preso se porte mal en el futuro.

¡Atención! tenemos la primera cagada: el resultado es una probabilidad -o algo parecido- que nunca será del 100% puesto que nunca se puede estar seguro de nada. Pero sigamos.

El cómo creamos esa función, que viene a ser nuestro oráculo, es irrelevante para el caso, aunque de ello sacaríamos las siguientes cagadas en el planteamiento de nuestros amigos. Digamos que a esa función se la entrena con presos antiguos de los que sabemos sus datos y si reincidierion o no. Matemáticamente tendríamos algo así:

\[y = f(x)\]

Donde  x es el conjunto de datos del preso, f(x) nuestra función mágica que actua sobre esos datos, e y el veredicto final, que será un número entre 0 y 1 interpretable como la probabilidad de que el preso delinca.

Imaginemos, como han hecho nuestros amigos, que aplicamos esta función a cada preso actual y que no le dan la libertad condicional a aquellos con y mayor de 0,5.

Enhorabuena, es usted la reencarnación del mismísimo Tomás de Torquemada.

¿Qué hemos hecho mal? Pues olvidar el libre albedrío. Confiar en la ecuación anterior significa aceptar el determinismo como rector del universo y creer que nuestra función f(x) es capaz de captar su incomputable complejidad, hasta el movimiento del último átomo. Así que para lidiar con esta aleatoriedad la introducimos en nuestra ecuación:

\[y = f(x) + \varepsilon\]

La epsilon representa, por lo tanto, ese factor, que es una variable aleatoria que en ingeniería se conoce como ruido y en matemáticas como error. Dependiendo de lo que la ecuación represente, el error puede ser el ciudadano que miente en una encuesta, la mariposa que agita sus alas, el pánico en bolsa tras la noticia de un ataque terrorista a una planta petrolífera, o simplemente la suma de infinitos factores que afectan a f(x) pero que no podemos moldelar porque su comportamiento es aparentemente caótico. Por muy buena que sea nuestra f(x), hay una parte de ese error, la del libre albedrio, que nos la tenemos que comer por que no hay una máquina que pueda predecir con total exactitud si voy a seguir escribiendo o me voy a tirar por la ventana para demostrar que estoy en lo cierto. En definitiva,  ese factor puede girar la tortilla y hacer que un preso decida pasarse  al otro lado ante la sorpresa de nuestro oráculo que no supo ni pudo predecirlo, como tampoco sería capaz de predecir la aparición de un nuevo Hitler en Alemania.

Por ello obviar el libre albedrio equivale a considerarnos un ejército de robots cien por cien predecibles y cien por cien idénticos.  Si la sociedad es la suma de individuos f(x) + epsilon que se organizan en para maximizar y distribuir la felicidad, sacrificar el libre albedrío implica no solo negar nuestra realidad como personas sino implosionar la definición de sociedad, que quedaría en una triste, insípida, gris y determinista f(x).

Por reducción al absurdo, por tanto, quod erat demonstrandum.