Vous êtes sur la page 1sur 26

Authorship Attribution

and Statistical Text


Analysis
Cristian Grast
Juan David Reyes Garcia
Contenido

 Resumen del articulo

 Explicación de los métodos estadísticos utilizados

 Conclusiones del articulo

 Comentarios finales sobre metodología y comentarios acerca del articulo


Resumen del articulo

 Aplicación de la estadística para determinar la autoría de textos antiguos

 Manejo de dos métodos estadísticos principales:


- Word Spectrum
- Multinomial Statistical analysis
 Haciendo uso de algunos ejemplos de autoría controversial
Word spectrum o Characteristic curve

 Desarrollado por Thomas Corwin Mendenhall en 1887

 Consiste en generar una curva de frecuencia contando el numero de letras


que tiene cada palabra de un texto de por lo menos 1000 palabras

 Este método asume que cada autor maneja un vocabulario especifico que es
único para cada escritor y que es persistente en sus escrituras y el genero
literario al que se dedica a lo largo del tiempo y por tanto se puede
determinar la moda especifica de cada autor en sus escrituras
Ejemplo 1. Curva de frecuencia “Vanity
Fair”
Ejemplo 2. Curva de frecuencia
“Commentaries”
Uso del método Word spectrum para
determinar la autoría de un texto entre
Bacon y Shakespeare
Analisis del libro “Quintus Curtius
Snodgrass” para determinar la autoría de
Mark Twain
Dada la diferencia entre las curvas de frecuencia entre el autor y el
texto se determino que Mark Twain no fue autor de QCS
Multinomial statistical analysis

 Consiste en analizar la similitud de varios elementos (conglomerados) de


textos por medio de Functional words y representarlos mediante
dendrogramas para determinar la autoría de una escritura

 Con este método se puede determinar la autoria de un texto haciendo uso de


la gramatica y estilo particular de cada autor para la escritura

 Despues de determinar los functional words de cada texto, se debe generar


una tabla de frecuencias porcentuales de los datos y usarlo para generar el
dendrograma y determinar similitud entre dos textos
Functional words

 Son palabras sin mucho significado contextual pero que se asume que se usan
de forma particular y única para cada autor y por tanto su frecuencia en los
textos sirve para distinguir autores

 Estas palabras incluyen pronombres, verbos auxiliares, preposiciones,


conjunciones, determinantes y adverbios
Dendrogramas
 Los dendrogramas son modelos de representación grafica que permiten
determinar la similitus entre varios elementos o chunks
Multinomial analysis of writings of
Nezami (N) and Shahriyar (SH):
 Se escogieron 14 libros de Nezami y 3 de Shahriyar

 Se escogieron paginas de manera aleatoria de los textos, y se escogieron los


functional words de cada bloque de texto de mas de 1.000 palabras

 Se seleccionaron únicamente los functional words con frecuencia mayor a


zero
 Se calculo la frecuencia porcentual de cada functional word
 Se represento cada frecuencia de los functional words por medio de una caja
de bigotes para identificar valores extremos
 Se creo el dendrograma
Multinomial analysis of Writings of
Zarinkoob (Z) and Daneshvar (D):
 Se escogieron 6 bloques de texto de mas de 1.000 palabras de Zarinkoob y 4
bloques de Daneshvar

 Se seleccionaron solo 9 Functional words de los textos


 Se tabulo la frecuencia porcentual de los functional groups
 Se observo como afecta el cambio en la cantidad de variables utilizados para
este método de analisis generando dendrogramas con 9, 7 y 5 variables
Como afecta el numero de variables la
confiabilidad de este análisis?

 Se determino que el numero de variables si afectaba de manera significante


los resultados y la confiabilidad del análisis, puesto que entre menos variables
los dendrogramas tendían a tener mas valores extremos que afectaban la
similitud entre los textos

 Sin embargo, el investigador reconoce que hace falta mayor estudio en este
tema para obtener una conclusión definitiva
Conclusiones del articulo

 El uso de métodos estadísticos para determinar la autoría de los textos


antiguos ha permitido en gran manera identificar con cierto grado de
precisión y consistencia los autores de textos antiguos con confiabilidad

 Existen muchas variables y condiciones que generan un alto grado de


incertidumbre en estos análisis estadísticos

 No existe un método definitivo que considere todas las variables y condiciones


a las que puede ser susceptible un texto por lo que no existe una manera
definitiva o absoluta para determinar si un texto pertenece a un autor de
manera precisa y confiable
Comentarios finales

 En la recolección de datos de algunas pruebas, el numero de datos entre


sujetos era inequitativo y desproporcional

 No se mostraron ninguno de los cálculos realizados en las pruebas

 Los datos parecen haber sido escogidos todos de manera aleatoria

 Se reconocieron errores de confiabilidad y precisión entre los métodos


estadísticos utilizados y se exploro las debilidades de cada uno
Muchas Gracias

Referencias
 Authorship Attribution and Statistical Text Analysis. Rohangiz Modaber
Dabagh.
Tomado de: https://www.stat-d.si/mz/mz4.1/dabagh.pdf

 Dendrogram. National department for humanities


Tomado de: https://wheatoncollege.edu/wp-content/uploads/2012/08/How-to-
Read-a-Dendrogram-Web-Ready.pdf

 Bringar, C.S. (1963): Mark Twain and the Quintus Curtius Snodgrass Letters: A
statistical test of authorship. Journal of the American Statistical Association,
58, 85-96.

Vous aimerez peut-être aussi