Prefacio

El objetivo de este libro es contar la historia de la estadística como es usada hoy en día por los investigadores alrededor del mundo. Es una historia diferente a la que es contada por la mayoría de los libros de introducción a la estadística, los cuales se enfocan en enseñar cómo usar un conjunto de herramientas para lograr objetivos muy específicos. Este libro se enfoca en entender las ideas básicas del pensamiento estadístico — una manera sistemática de pensar acerca de cómo describir el mundo y de usar información para tomar decisiones y hacer predicciones, todo en el contexto de la incertidumbre inherente que existe en el mundo real. También brinda métodos que sólo se han hecho alcanzables a partir de los asombrosos logros en poder computacional que han sucedido en las últimas décadas. Análisis que hubieran tomado años en los 1950’s ahora pueden completarse en unos cuantos segundos en una computadora estándar, y este poder desata la habilidad de usar simulaciones computacionales para realizarse preguntas de maneras nuevas y potentes.

Este libro también fue escrito en el despertar de la crisis de reproducibilidad que ha envuelto a muchas áreas de la ciencia desde 2010. Una de las raíces importantes de esta crisis está en la manera en que la prueba de hipótesis estadística ha sido usada (y abusada) por los investigadores (como detallo en el último capítulo del libro), y esto se vincula directamente a la educación estadística. Por lo tanto, un objetivo de este libro es resaltar las maneras en las cuales los métodos estadísticos pueden ser problemáticos, y sugerir alternativas.

0.1 ¿Por qué existe este libro?

En 2018, comencé a enseñar un curso de estadística de licenciatura en Stanford (Psych 10/Stats 60). Nunca había enseñado estadística antes, y esta era una oportunidad de sacudir las cosas. He estado cada más insatisfecho con la educación estadística en la licenciatura en psicología, y quería brindar nuevas ideas y aproximaciones a la clase. En particular, quería brindar las aproximaciones que están siendo cada vez más usadas en la práctica estadística real en el siglo 21. Como lo han dicho tan claramente Brad Efron y Trevor Hastie en su libro “Computer Age Statistical Inference: Algorithms, Evidence, and Data Science”, estos métodos toman la ventaja del poder computacional de hoy en día para resolver problemas en maneras que van mucho más allá de los métodos estándar que son usualmente enseñados en los cursos de estadística a estudiantes de licenciatura en psicología.

El primer año que enseñé esa clase, usé como libro de texto el increíble libro de Andy Field en su versión de novela gráfica, “An Adventure in Statistics”. El libro tiene muchas cosas que realmente me gustan – en particular, me gusta la manera en que presenta la práctica estadística alrededor de la construcción de modelos, y trata la prueba de hipótesis con suficiente cuidado (aunque con insuficiente desdén, en mi opinión). Desafortunadamente, la mayoría de mis estudiantes odiaron el libro, principalmente porque implicaba navegar por demasiada historia para llegar al conocimiento estadístico. También lo incontré insuficiente porque había una cantidad de temas (particularmente aquellos del campo de la inteligencia artificial conocidos como machine learning) que quería incluir pero que no estaban mencionados en el libro. Finalmente sentí que los estudiantes encontrarían mejor el revisar un libro que siguiera muy de cerca mis clases, por lo que comencé a escribir mis clases en un conjunto de cuadernos computacionales que eventualmente se convertirían en este libro. La estructura de este libro sigue aproximadamente la del libro de Field, porque las clases originalmente se basaron en gran medida en el curso de ese libro, pero el contenido es sustancialmente diferente (y casi seguro que mucho menos divertido o inteligente). También ajusté el libro para el sistema de trimestre de 10 semanas que se usa en Stanford, que provee menos tiempo que el semestre de 16 semanas para los que la mayoría de los libros de texto de estadística están escritos.

0.2 La era dorada de la información

A lo largo de este libro he tratado usar ejemplos de datos reales cuando es posible. Actualmente es bastante fácil porque estamos sumergidos en bases de datos abiertas, provenientes de gobiernos, de científicos, y de compañías que crecientemente hacen disponibles sus datos de manera gratuita. Pienso que usar datos reales es importante porque prepara a los estudiantes para trabajar con datos reales en lugar de datos de juguete, lo que creo que debería ser uno de los objetivos principales del entrenamiento en estadística. También nos ayuda a darnos cuenta (como veremos en varios puntos a lo largo del libro) que los datos no siempre vienen listos para analizarse, y que frecuentemente necesitan un poco de pelea para ayudarlos a tener forma. Usando datos reales también podemos mostrar que las distribuciones estadísticas idealizadas frecuentemente asumidas (presupuestas) en los métodos estadísticos no siempre se mantienen en el mundo real – por ejemplo, como veremos en el Capítulo ??, distribuciones de algunas cantidades en el mundo real (como el número de amigos en Facebook) puede tener colas muy largas que pueden romper varias suposiciones estándares.

Me disculpo de antemano que las bases de datos usadas estén fuertemente centradas en Estados Unidos. Esto es principalmente porque la mejor base de datos para la mayoría de las demostraciones es la Encuesta Nacional de Nutrición y Salud (National Health and Nutrition Examination Survey, NHANES) que está disponible como un paquete de R, y porque muchas otras bases de datos complejas en R (como las del paquete fivethirtyeight) también están basadas en Estados Unidos. Si tienes alguna sugerencia de bases de datos de otras regiones, ¡por favor pásamelas!

0.3 La importancia de hacer estadísticas

La única manera de realmente aprender estadística es haciendo estadísticas. Mientras que históricamente muchos cursos de estadística se enseñan usando software estadístico gráfico de apuntar-y-dar-click, es cada vez más común que en la educación estadística se usen lenguajes abiertos en los cuales los estudiantes pueden escribir código para hacer sus propios análisis. Pienso que el ser capaz de realizar el código para nuestros propios análisis es esencial para obtener una apreciación más profunda del análisis estadístico, es la razón por la cual se espera que los estudiantes de mi curso en Stanford aprendan a usar el lenguaje de programación R para analizar datos, a la par del conocimiento estadístico que aprenden de este libro.

Existen dos acompañantes en línea para este libro que pueden ayudar al lector a comenzar a aprender a programar; uno se enfoca en el lenguaje de programación R, y el otro se enfoca en el lenguaje Python. Ambos son trabajos en progreso – ¡siéntete libre de contribuir!

0.4 Un libro de código abierto (open source)

Este libro pretende ser un documento vivo, razón por la cual su código está disponible en línea en https://github.com/poldrack/psych10-book. Si encuentras muchos errores en este libro o quieres hacer una sugerencia de cómo mejorarlo, por favor abre un issue en el sitio de Github. Incluso mejor, envía un pull request con tu cambio sugerido.

Este libro se publica usando la licencia de Creative Commons Attribution-NonCommercial 2.0 Generic (CC BY-NC 2.0) License. Por favor, ve los términos de esa licencia para más detalles.

0.5 Acknowledgements

I’d first like to thank Susan Holmes, who first inspired me to consider writing my own statistics book. Anna Khazenzon provided early comments and inspiration. Lucy King provided detailed comments and edits on the entire book, and helped clean up the code so that it was consistent with the Tidyverse. Michael Henry Tessler provided very helpful comments on the Bayesian analysis chapter. Particular thanks also go to Yihui Xie, creator of the Bookdown package, for improving the book’s use of Bookdown features (including the ability for users to directly generate edits via the Edit button). Finally, Jeanette Mumford provided very helpful suggestions on the book.

I’d also like to thank others who provided helpful comments and suggestions: Athanassios Protopapas, Wesley Tansey, Jack Van Horn, Thor Aspelund.

Thanks to the following Twitter users for helpful suggestions: @enoriverbend

Thanks to the man individuals who have contributed edits or issues by Github or email: Isis Anderson, Larissa Bersh, Isil Bilgin, Forrest Dollins, Chuanji Gao, Nate Guimond, Alan He, Wu Jianxiao, James Kent, Dan Kessler, Philipp Kuhnke, Leila Madeleine, Lee Matos, Ryan McCormick, Kirsten Mettler, Shanaathanan Modchalingam, Martijn Stegeman, Mehdi Rahim, Jassary Rico-Herrera, Mingquian Tan, Wenjin Tao, Laura Tobar, Albane Valenzuela, Alexander Wang, Michael Waskom, barbyh, basicv8vc, brettelizabeth, codetrainee, dzonimn, epetsen, carlosivanr, hktang, jiamingkong, khtan, kiyofumi-kan, NevenaK, ttaweel.

Special thanks to Isil Bilgin for assistance in fixing many of these issues.