Académique Documents
Professionnel Documents
Culture Documents
Abstracto
Este artculo examina cmo la disponibilidad de grandes volmenes de datos, junto con los
nuevos anlisis de datos, desafos epistemologas a travs de las ciencias, las ciencias
sociales y humanas establecidas, y evala el grado en que se estn engendrando cambios
de paradigma a travs de mltiples disciplinas. En particular, se explora crticamente
nuevas formas de empirismo que declaran "el fin de la teora ', la creacin de datos
impulsada en lugar de la ciencia basada en el conocimiento, y el desarrollo de las
humanidades digitales y ciencias sociales computacionales que proponen radicalmente
diferentes maneras de hacer sentido de la cultura, la historia, la economa y la sociedad. Se
argumenta que: (1) grandes volmenes de datos y anlisis de datos nuevos son
innovaciones disruptivas que estn reconfigurando en muchos casos cmo se desarrolla la
investigacin; y (2) hay una necesidad urgente de mayor reflexin crtica dentro de la
academia sobre las implicaciones epistemolgicas de la revolucin datos de despliegue,
una tarea que apenas ha comenzado a ser abordado a pesar de los rpidos cambios en las
prcticas de investigacin, actualmente en curso. Despus de revisar crticamente las
posiciones epistemolgicas emergentes, se afirma que un enfoque potencialmente
fructfera sera el desarrollo de una epistemologa situada, reflexiva y contextualmente
matizado.
introduccin
Las revoluciones en la ciencia a menudo han sido precedida de revoluciones en la medicin.
Sinan Aral (citado en Cukier de 2010 )
Big Data crea un cambio radical en nuestra forma de pensar acerca de la investigacin ....
[Se ofrece] un profundo cambio en los niveles de la epistemologa y la tica. Big Data
replantea preguntas clave sobre la constitucin de los conocimientos, los procesos de
investigacin, cmo debemos comprometerse con la informacin, y la naturaleza y la
categorizacin de la realidad ... Big Data Alice nuevos terrenos de objetos, mtodos de
conocimiento, y definiciones de la vida social . ( Boyd y Crawford, 2012 )
Al igual que con muchos de los conceptos que emergen rpidamente, grandes volmenes
de datos se ha definido y operacionalizado, que van desde proclamas trilladas que grandes
volmenes de datos se compone de conjuntos de datos demasiado grandes para caber en
una hoja de clculo Excel o ser almacenados en una nica mquina de diversas maneras (
Strom 2012 ) a las evaluaciones ontolgicas ms sofisticados que se burlan de sus
caractersticas inherentes ( Boyd y Crawford, 2012 ; Mayer-Schnberger Cukier, 2013 ).
Sobre la base de un amplio compromiso con la literatura, Kitchin (2013) detalla que grandes
volmenes de datos es:
En otras palabras, Big Data no es simplemente denota por volumen. De hecho, la industria,
el gobierno y la academia han producido siempre grandes conjuntos de datos - por ejemplo,
los censos nacionales. Sin embargo, teniendo en cuenta los costes y las dificultades de
generar, procesar, analizar y almacenar este tipo de datos, estos datos han sido producidos
de forma muy controlada utilizando tcnicas de muestreo que limitan su mbito de
aplicacin, la temporalidad y el tamao ( Miller, 2010 ). Para hacer el ejercicio de
recopilacin de datos del censo manejable que se han producido una vez cada cinco o 10
aos, acaba de pedir 30 a 40 preguntas, y sus salidas son por lo general bastante gruesa
en la resolucin (por ejemplo, zonas o condados locales en lugar de individuos y hogares).
Por otra parte, los mtodos utilizados para generarlos son bastante inflexibles (por ejemplo,
una vez al censo se establece y se est administrando es imposible modificar o aadir /
eliminar preguntas). Mientras que el censo pretende ser exhaustiva, enumerando todas las
personas que viven en un pas, la mayora de las encuestas y otras formas de generacin
de los datos son muestras, buscando ser representativa de una poblacin.
Por el contrario, los grandes datos se caracteriza por ser generada de forma continua,
buscando ser exhaustiva y de grano fino en su alcance, y flexible y escalable en su
produccin. Ejemplos de la produccin de tales datos incluyen: CCTV digital; el registro de
las compras al por menor; dispositivos digitales que registran y comunican la historia de su
propio uso (por ejemplo, telfonos mviles); el registro de las transacciones e interacciones
a travs de redes digitales (por ejemplo, correo electrnico o banca en lnea); datos de
navegacin que el historial de navegacin a travs de un sitio web o aplicacin; mediciones
de sensores embebidos en objetos o entornos; el escaneo de objetos legibles por mquina,
tales como pases de viaje o cdigos de barras; y las noticias de los medios sociales (
Kitchin, 2014 ). Estos estn produciendo enormes flujos, dinmicos de diversos, de grano
fino, datos relacionales. Por ejemplo, en 2012 Wal-Mart estaba generando ms de 2,5
petabytes (2 50 bytes) de datos relativos a ms de 1 milln de transacciones de los clientes
cada hora ( Open Data Center Alliance, 2012 ) y Facebook inform que se estaba
procesando 2,5 millones de piezas de de contenido (enlaces, comentarios, etc.), 2,7
millones de acciones "como" y 300 millones de subida de fotos por da ( Constine, 2012 ).
La manipulacin y el anlisis de esos datos es una propuesta muy diferente a tratar con un
censo cada 10 aos o una encuesta de unos pocos cientos de los encuestados.
Mientras que la produccin de tales Big Data ha existido en algunos mbitos, como la
teledeteccin, la prediccin del tiempo, y los mercados financieros, desde hace algn
tiempo, una serie de avances tecnolgicos, como la computacin ubicua, trabajo internet
generalizada, y los nuevos diseos de bases de datos y almacenamiento soluciones, han
creado un punto de inflexin para su generacin y anlisis de rutina, no menos importante
de las cuales son nuevas formas de anlisis de datos diseados para hacer frente a la
abundancia de datos ( Kitchin, 2014 ). Tradicionalmente, las tcnicas de anlisis de datos
se han diseado para extraer ideas de los conjuntos de datos escasos, estticos, limpias y
mal relacionales, cientfico de la muestra y se adhieren a las suposiciones estrictas (como
la independencia, la estacionalidad, y la normalidad), y generados y analizados con una
pregunta especfica en mente ( Miller, 2010 ). El reto de analizar grandes volmenes de
Tabla 1.
Cuatro paradigmas de la ciencia.
El argumento de Kuhn ha sido objeto de muchas crticas, sobre todo porque en algunos
mbitos acadmicos hay poca evidencia de paradigmas operativos, sobre todo en algunas
ciencias sociales donde hay un conjunto diverso de enfoques filosficos empleadas (por
ejemplo, humanos geografa, sociologa), aunque en otra dominios, tales como las ciencias,
no ha habido ms unidad epistemolgica en torno a cmo se lleva a cabo la ciencia,
utilizando un mtodo cientfico bien definido, respaldado por la prueba de hiptesis para
verificar o falsificar teoras. Por otra parte, las cuentas paradigmticos producen
excesivamente desinfectados y las historias lineales de cmo evolucionan las disciplinas,
suavizando las formas desordenadas, en pugna y plural en el que la ciencia se desarrolla
en la prctica. Sin embargo, mientras que la nocin de paradigmas es problemtico, que
tiene utilidad en la elaboracin de los debates actuales sobre el desarrollo de grandes
volmenes de datos y sus consecuencias, porque muchas de las afirmaciones que se
hacen con respecto a la produccin de conocimiento sostener que se est creando una
epistemologa fundamentalmente diferente; que la transicin a un nuevo paradigma est en
marcha. Sin embargo, la forma que esta nueva epistemologa est tomando se pone en
duda. El resto de este documento examina crticamente el desarrollo de un cuarto
paradigma emergente en la ciencia y su forma, y explora en qu medida los datos de la
revolucin est llevando a epistemologas alternativas en las humanidades y las ciencias
sociales y el cambio de las prcticas de investigacin.
Mientras que Jim Gray prev el cuarto paradigma de la ciencia para ser intensivo de datos
a una forma radicalmente nueva extensin del mtodo cientfico establecido, otros sugieren
que grandes volmenes de datos marca el comienzo de una nueva era del empirismo, en
el que el volumen de datos, acompaada de tcnicas que puede revelar su verdad
inherente, permite que los datos hablan por s mismos libres de la teora. La vista empirista
ha ganado credibilidad fuera de la academia, especialmente dentro de los crculos de
negocios, pero sus ideas tambin han echado races en el nuevo campo de la ciencia de
datos y otras ciencias. Por el contrario, un nuevo modo de la ciencia basada en datos est
emergiendo dentro de las disciplinas tradicionales de la academia. En esta seccin, las
afirmaciones epistemolgicas de ambos enfoques se examinan crticamente, consciente de
los diferentes conductores y las aspiraciones de los negocios y la academia, con el primero
preocupado con el empleo de anlisis de datos para identificar nuevos productos, mercados
y oportunidades en lugar de avanzar en el conocimiento per se, y el segundo se centr en
la mejor manera de darle sentido al mundo y para determinar explicaciones acerca de los
fenmenos y procesos.
convierte como en gran medida innecesaria. Siegel (2013: 90) argumenta de este modo
con respecto al anlisis predictivo: "Por lo general, no sabemos acerca la causalidad, y que
a menudo no necesariamente importa ... el objetivo es predecir ms de lo que es para
entender el mundo ... simplemente tiene que trabajar; triunfa sobre la prediccin de
explicacin ".
En segundo lugar, los grandes datos no surge de la nada, libre de la "regulacin de la fuerza
de la filosofa" ( Berry, 2011 : 8). Contra, sistemas han sido diseados para capturar ciertos
tipos de datos y los anlisis y algoritmos utilizados se basan en el razonamiento cientfico y
se han refinado a travs de pruebas cientficas. Como tal, una estrategia inductiva de la
identificacin de patrones dentro de los datos no se produce en un vaco cientfico y se
discursivamente enmarcada por los resultados anteriores, las teoras y la formacin; por la
especulacin que se basa en la experiencia y el conocimiento ( Leonelli, 2012 ). Nuevas
analticas pueden presentar la ilusin de descubrir puntos de vista de forma automtica sin
hacer preguntas, pero los algoritmos utilizados sin duda surgi y se probado cientficamente
para la validez y veracidad.
En tercer lugar, al igual que los datos no se generan libre de la teora, ni tampoco pueden
simplemente hablar por s mismos libres de sesgo humano o enmarcar. Como Gould (1981:
166) seala, "datos inanimados no pueden hablar por s mismos, y siempre hacer valer
algn marco conceptual, ya sea intuitiva y mal formado o forma firme y estructurado
formalmente, a la tarea de investigacin, anlisis y interpretacin'. Dar sentido a los datos
siempre se enmarca - los datos se examinan a travs de una lente particular que influye en
la forma en que se interpretan. Incluso si se automatiza el proceso, los algoritmos utilizados
para procesar los datos estn impregnadas de valores particulares y contextualizan en un
enfoque cientfico en particular. Adems, los patrones que se encuentran dentro de un
conjunto de datos no son intrnsecamente significativa. Las correlaciones entre variables
dentro de un conjunto de datos pueden ser de naturaleza aleatoria y tienen poca o ninguna
asociacin causal, e interpretarlas como tales pueden producir graves falacias ecolgicas.
Esto puede ser exacerbado en el caso de grandes volmenes de datos como la posicin
empirista parece promover la prctica de la filtracin de informacin - la caza de toda
asociacin o modelo.
En cuarto lugar, la idea de que los datos hablan por s mismas sugiere que cualquier
persona con un conocimiento razonable de las estadsticas debe ser capaz de interpretar
sin contexto o conocimiento especfico del dominio. Se trata de una presuncin expresada
por algunos datos e informticos y otros cientficos, como los fsicos, todos los cuales han
llegado a ser activo en la prctica de las ciencias sociales y la investigacin en
humanidades. Por ejemplo, varios fsicos han dirigido su atencin a las ciudades,
empleando anlisis de grandes volmenes de datos para modelar los procesos sociales y
espaciales y para identificar supuestas leyes que sustentan su formacin y funciones (
Bettencourt et al., 2007 ; Lehrer, 2010 ). Estos estudios a menudo ignoran deliberadamente
un par de siglos de becas en ciencias sociales, incluyendo casi un siglo de anlisis
cuantitativo y la construccin de modelos. El resultado es un anlisis de las ciudades que
es reduccionista, funcionalista e ignora los efectos de la cultura, la poltica, la poltica, la
gobernabilidad y el capital (que reproducen los mismos tipos de limitaciones generadas por
las ciencias cuantitativas / positivistas sociales en la mitad del siglo 20). Un conjunto similar
de preocupacin es compartida por los de las ciencias. Strasser (2012) , por ejemplo, seala
que dentro de las ciencias biolgicas, bioinformticos que tienen una forma muy estrecha y
particular de entender la biologa se muelen reclamando una vez ocupado por el clnico y
el bilogo experimental y molecular. Estos cientficos estn, sin duda, haciendo caso omiso
de las observaciones de Porway (2013):
Sin expertos en la materia disponibles para articular los problemas con antelacin, se
obtiene [pobres] resultados .... Expertos en la materia son doblemente necesarios para
evaluar los resultados del trabajo, sobre todo cuando se est tratando con datos sensibles
sobre el comportamiento humano. A medida que los cientficos de datos, estamos bien
equipados para explicar los datos "qu" de, pero rara vez deberamos tocar la cuestin de
"qu" en asuntos que no son expertos en.
En pocas palabras, mientras que los datos pueden ser interpretados libre de contexto y
dominio- conocimientos especficos, es probable que sea anmica e ineficiente tal
interpretacin epistemolgica ya que carece de empotrar en los debates ms amplios y
conocimientos.
Estas nociones falaces han ganado algo de traccin, especialmente dentro de los crculos
de negocios, debido a que poseen una narrativa conveniente para las aspiraciones de las
empresas de conocimiento orientado (por ejemplo, los corredores de datos, proveedores
de anlisis de datos, proveedores de software, consultoras) en la venta de sus servicios.
Dentro del marco emprico, anlisis de datos ofrecen la posibilidad de un conocimiento
profundo, objetivo y rentable sin la ciencia o los cientficos, y sus gastos generales del coste,
la contingencia, y la bsqueda de la explicacin y la verdad. En este sentido, mientras que
las tcnicas de las ciencias datos empleados podran sostener la prominencia genuina por
los practicantes, la articulacin de un nuevo empirismo funciona como un dispositivo de
retrica discursiva diseado para simplificar un enfoque epistemolgico ms compleja y de
convencer a los vendedores de la utilidad y el valor del anlisis de Big Data .
En contraste con las nuevas formas de empirismo, la ciencia basada en datos busca
mantener a los principios del mtodo cientfico, pero es ms abierta a la utilizacin de una
combinacin hbrida de abduccin, inductivos y deductivos enfoques para avanzar en la
comprensin de un fenmeno. Se diferencia del diseo tradicional deductivo, experimental
en que se busca generar hiptesis y percepciones 'nacidos de los datos "ms que" nace de
la teora "( Kelling et al., 2009 : 613). En otras palabras, se trata de incorporar un modo de
El proceso es guiado en el sentido de que la teora existente se utiliza para dirigir el proceso
de descubrimiento de conocimiento, en lugar de simplemente con la esperanza de
identificar todas las relaciones dentro de un conjunto de datos y asumir que son de alguna
manera significativa. Como tal, cmo se generan o reutilizados de datos est dirigida por
ciertos supuestos, apoyado por el conocimiento y la experiencia terica y prctica en cuanto
a si las tecnologas y sus configuraciones capturarn o producir material de investigacin
apropiada y til. Los datos no son generados por todos los medios posibles, utilizando todo
tipo de tecnologa disponible o cada tipo de marco de muestreo; ms bien, las estrategias
de generacin de datos y reutilizacin son cuidadosamente pensado, con las decisiones
estratgicas hechas para cosechar ciertos tipos de datos y no a otros. Del mismo modo,
cmo se procesan estos datos, gestionados y analizados se gua por suposiciones en
cuanto a qu tcnicas podran ofrecer una perspectiva interesante. Los datos no estn
sujetos a cada encuadre ontolgica es posible, o toda forma de tcnica de minera de datos
con la esperanza de que revelan una verdad oculta. Por el contrario, las decisiones
informadas tericamente se hacen sobre la mejor manera de abordar un conjunto de datos
de tal manera que se revelar la informacin que ser de inters potencial y es digno de
mayor investigacin. Y en lugar de comprobar si todas las relaciones revel ha veracidad,
la atencin se centr en aquellos - en base a unos criterios - que aparentemente ofrecen la
forma ms probable o vlida hacia adelante. De hecho, muchas supuestas relaciones
dentro de los conjuntos de datos de forma rpida pueden descartarse como trivial o absurdo
por especialistas de dominio, con otros marcan como merece ms atencin ( Miller, 2010 ).
Dicha toma de decisiones con respecto a los mtodos de generacin y anlisis de datos se
basa en el razonamiento abductivo. La abduccin es un modo de inferencia lgica y el
razonamiento remitida por CS Peirce (1839-1914) ( Miller, 2010 ). Se busca una conclusin
que tenga sentido lgico y razonable, pero no es definitiva en su reclamacin. Por ejemplo,
no hay ningn intento de deducir cul es la mejor manera de generar los datos, sino ms
bien para identificar un enfoque que tiene un sentido lgico teniendo en cuenta lo que ya
se sabe acerca de este tipo de produccin de datos. Secuestro es muy usada en la ciencia,
especialmente en la formulacin de hiptesis, aunque dicho uso no se reconoce
ampliamente. Cualquier relacin reveladas dentro de los datos no entonces surgen de la
nada y ni tampoco simplemente hablan por s mismos. El proceso de induccin - de ideas
que emergen de los datos - est enmarcada contextualmente. Y esas ideas no son el punto
final de una investigacin, dispuesto y motivado en una teora. Por el contrario, las ideas
sirven de base para la formulacin de hiptesis y la prueba de su validez deductiva. En
otras palabras, la ciencia basada en datos es una versin reconfigurado del mtodo
cientfico tradicional, proporcionando una nueva forma en la que la construccin de la teora.
No obstante, el cambio epistemolgico es significativa.
En lugar de empirismo y el final de la teora, se sostiene por algunos que la ciencia basada
en los datos se convertir en el nuevo paradigma del mtodo cientfico en una poca de
grandes volmenes de datos debido a que la epistemologa favorecida es adecuado para
extraer valiosa informacin adicional, el tradicional "en el conocimiento la ciencia impulsada
'sera un fracaso para generar ( Kelling et al., 2009 ; Loukides de 2010 ; Miller, 2010 ).
Impulsada por el conocimiento de ciencia, utilizando un enfoque deductivo recta, tiene
particular utilidad en la comprensin y explicacin del mundo en las condiciones de escasez
de datos y la computacin dbil. El uso continuado de este enfoque, sin embargo, cuando
los avances tecnolgicos y metodolgicos significan que es posible realizar anlisis mucho
ms rico de los datos - la aplicacin de los nuevos anlisis de datos y ser capaz de conectar
los datos en conjunto grande y dispar juntos en formas que hasta ahora eran imposibles, y
que producen nuevos datos valiosos e identificar y abordar las cuestiones de maneras
nuevas y emocionantes - tiene poco sentido. Por otra parte, los defensores de la ciencia
basada en datos argumentan que es mucho ms adecuado para explorar, extraer valor y
dar sentido, conjuntos de datos interconectadas masivas, fomentar la investigacin
interdisciplinar que conjuga experiencia en el campo (ya que es menos limitada por el marco
terico de partida) y que dar lugar a modelos y teoras de sistemas complejos enteros ms
holsticas y extensas en lugar de elementos de ellas ( Kelling et al., 2009 ).
Mientras que las epistemologas del empirismo grandes volmenes de datos y la ciencia
basada en datos parecen destinados a transformar el enfoque de la investigacin tomada
en las ciencias naturales, la vida, fsicas y de ingeniera, su trayectoria en las ciencias
humanas y sociales es menos seguro. Estas reas de investigacin son muy diversos en
sus bases filosficas, con slo algunos estudiosos que emplean la epistemologa comn en
las ciencias. Los que utilizan el mtodo cientfico con el fin de explicar y modelar los
fenmenos sociales, en trminos generales, se basan en las ideas del positivismo (aunque
podran no adoptar una etiqueta de este tipo; Kitchin, 2006 ). Este tipo de trabajo tiende a
centrarse en la informacin objetiva, cuantificada - fenmenos empricamente observables
que pueden ser medidos con firmeza (como el recuento, la distancia, el costo y el tiempo),
en oposicin a los aspectos ms intangibles de la vida humana, tales como creencias o
ideologa - utilizando la prueba estadstica para establecer relaciones causales y construir
teoras y modelos predictivos y simulaciones. Enfoques positivistas estn bien establecidos
en la economa, la ciencia poltica, la geografa humana y la sociologa, pero son raros en
las humanidades. Sin embargo, dentro de estas disciplinas mencionadas, se ha producido
un fuerte movimiento en el ltimo medio siglo hacia enfoques post-positivistas,
especialmente en la geografa humana y la sociologa.
Para los estudiosos positivistas de las ciencias sociales, el Big Data ofrece una gran
oportunidad para desarrollar ms sofisticados a mayor escala, modelos, de grano ms fino
de la vida humana. A pesar de la preocupacin por el acceso a grandes volmenes de datos
sociales y econmicos (mucha de la cual es generada por los intereses privados) y
cuestiones como la calidad de los datos, Big Data ofrece la posibilidad de cambiar 'a partir
de datos con escasez de estudios ricas en datos de las sociedades; de las instantneas
estticas a dinmicas desdoblamientos; agregaciones de gruesas a altas resoluciones; a
partir de modelos relativamente simples hasta las ms complejas, sofisticadas simulaciones
'( Kitchin, 2014 : 3). Existe la posibilidad de una nueva era de la ciencia social computacional
que produce estudios con mucha mayor amplitud, la profundidad, la escala y la puntualidad,
y que son inherentemente longitudinal, en contraste con la investigacin en ciencias
sociales existentes ( Lazer et al., 2009 ; Batty et al ., 2012 ). Por otra parte, la variedad,
exhaustividad, la resolucin y la relacionalidad de los datos, adems de la creciente poder
de la computacin y los nuevos anlisis de datos, abordan algunas de las crticas de la beca
positivista hasta la fecha, especialmente los de reduccionismo y el universalismo,
proporcionando ms de grano fino, y anlisis matizado sensible que puede tener en cuenta
el contexto y la contingencia, y se puede utilizar para refinar y ampliar los conocimientos
tericos del mundo social y espacial ( Kitchin, 2013 ). Adems, dada la extensin de datos,
es posible probar la veracidad de tal teora a travs de una variedad de entornos y
situaciones. En tales circunstancias, se argumenta que el conocimiento sobre los
individuos, las comunidades, las sociedades y entornos se har ms profundo y til con
Para los estudiosos de post-positivistas, Big Data ofrece tanto oportunidades como
desafos. Las oportunidades son una proliferacin, la digitalizacin y la interconexin de un
conjunto diverso de datos analgicos y no estructurados, en gran parte nueva (por ejemplo,
los medios de comunicacin social) y gran parte de lo que ha sido hasta ahora de difcil
acceso (por ejemplo, millones de libros, documentos, peridicos, fotografas, obras de arte,
objetos materiales, etc., de toda la historia que han sido prestados en forma digital en el
ltimo par de dcadas por una serie de organizaciones; Cohen, 2008 ), y tambin la
provisin de nuevas herramientas de la custodia de informacin, gestin y anlisis que
puede manejar un nmero masivo de objetos de datos. En consecuencia, en lugar de
concentrarse en un puado de novelas o fotografas, o un par de artistas y sus obras, se
hace posible la bsqueda y conexin a travs de un gran nmero de obras relacionadas;
en lugar de centrarse en un puado de sitios web o salas de chat, los videos, los peridicos
en lnea, se hace posible examinar cientos de miles de tales medios ( Manovich, 2011 ).
Estas oportunidades son ampliamente siendo examinadas ms a travs del emergente
campo de las humanidades digitales.
estudios de alcance mucho ms amplio para responder a las preguntas que seran
imposibles de responder, pero todos sin cmputo ( Berry, 2011 ; Manovich, 2011 ).
Para muchos, a continuacin, las humanidades digitales est fomentando el anlisis dbil,
superficial, en lugar de, penetracin profunda penetracin. Es excesivamente reduccionista
y crudo en sus tcnicas, sacrificando la complejidad, especificidad, el contexto, la
profundidad y la crtica de la escala, la amplitud, la automatizacin, los patrones descriptivos
y la impresin de que la interpretacin no requiere un conocimiento profundo del contexto.
Los mismos tipos de argumentos pueden ser niveladas en las ciencias sociales
computacional. Por ejemplo, un mapa de la lengua de los tweets en una ciudad podra
revelar patrones de concentracin geogrfica de las diferentes comunidades tnicas (
Rogers, 2013 ), pero las preguntas importantes son que constituye este tipo de
concentraciones, por qu existen, cules fueron los procesos de formacin y la
reproduccin, y cules son sus consecuencias sociales y econmicas? Una cosa es
identificar los patrones; es otra de explicarlas. Esto requiere la teora social y el
conocimiento contextual de profundidad. Como tal, el patrn no es el punto final, sino ms
bien un punto de partida para el anlisis adicional, que es casi seguro que se va a requerir
otros conjuntos de datos.
Al igual que con las crticas anteriores de las ciencias sociales cuantitativos y positivistas,
ciencias sociales computacionales son llevados a la tarea por postpositivistas como
mecanicista, atomizacin y parroquial, la reduccin de diversos individuos y compleja, las
estructuras sociales multidimensionales a meros puntos de datos (Wyly, en prensa) . Por
otra parte, el anlisis est plagado de suposiciones de determinismo social, como se
ejemplifica por Pentland (2012): "la clase de persona que eres est determinada en gran
medida por el contexto social, por lo que si puedo ver algunas de sus conductas, puedo
inferir que el resto , slo que en comparacin con las personas de su multitud '. Por el
contrario, las sociedades humanas, se argumenta, son demasiado complejos, contingente
y desordenado que ser reducido a frmulas y leyes, con modelos cuantitativos que
proporciona poca informacin sobre fenmenos como las guerras, el genocidio, la violencia
domstica y el racismo, y una visin nica circunscrita en otra sistemas humanos tales
como la economa, la contabilidad inadecuada para el papel de la poltica, la ideologa, las
estructuras sociales y la cultura ( Harvey, 1972 ). Las personas no actan de manera
racional, predeterminados, sino que viven vidas llenas de contradicciones, paradojas y
sucesos imprevisibles. Cmo se organizan y operan las sociedades vara a travs del
tiempo y el espacio y no hay forma ptima o ideal, o rasgos universales. De hecho, hay una
Brooks (2013) por lo tanto sostiene que el anlisis de datos grandes luchas con lo social (la
gente no est Justificacin y no se comportan de manera predecible, los sistemas humanos
son increblemente compleja, que tiene relacin contradictoria y paradjica); luchas con el
contexto (los datos son esquiladas en gran medida del contexto social, poltico y econmico
e histrico); crea un pajar ms grandes (que consta de muchas correlaciones espurias ms,
lo que hace difcil identificar agujas); tiene problemas para hacer frente a grandes
problemas (sobre todo sociales y los econmicos); favorece los memes ms obras
maestras (identifica las tendencias, pero no necesariamente caractersticas importantes
que pueden convertirse en una tendencia); y oscurece los valores (de los productores de
datos y los que ellos y sus objetivos analizar). En otras palabras, mientras que la analtica
de grandes datos pueden proporcionar algunas ideas, hay que reconocer que estn
limitados en su alcance, producir tipos particulares de conocimiento, y todava necesita
contextualizacin con respecto a otra informacin, ya sea que la teora de ser existente,
documentos de poltica, los estudios pequeos de datos o registros histricos, que pueden
ayudar a dar sentido a los patrones evidentes (Crampton et al., 2012).
Ms all del enfoque epistemolgico y metodolgico, que forma parte de la cuestin es que
tanto los grandes datos y anlisis parecen generarse sin preguntas especficas en mente,
o el enfoque es impulsado por la aplicacin de un mtodo o el contenido del conjunto de
datos en lugar de una particular, pregunta, o el conjunto de datos se est utilizando para
buscar una respuesta a una pregunta que nunca fue diseado para responder en el primer
lugar. Con respecto a esto ltimo, los datos de Twitter con etiquetas geogrficas no se ha
producido para proporcionar respuestas con respecto a la concentracin geogrfica de los
grupos lingsticos en una ciudad y los procesos que conducen a tales autocorrelacin
espacial. Nosotros tal vez no debera sorprendernos entonces que slo proporciona una
instantnea de la superficie, aunque sea una instantnea interesante, en lugar de penetrar
profundamente penetraciones en las geografas de la raza, la lengua, la aglomeracin y la
segregacin en lugares particulares.
Mientras que la mayora de los humanistas digitales reconocen el valor de la lectura atenta,
y el estrs cmo lecturas a distancia los complementan proporcionando profundidad y
contextualizacin, formas positivistas de las ciencias sociales son de oposicin a la postpositivistas enfoques. La diferencia entre las humanidades y las ciencias sociales a este
respecto se debe a que las estadsticas utilizadas en las humanidades digitales son en gran
parte descriptiva - la identificacin y el trazado de patrones. Por el contrario, las ciencias
sociales computacionales emplean el mtodo cientfico, como complemento de la
estadstica descriptiva con la estadstica inferencial que buscan identificar asociaciones y
la causalidad. En otras palabras, se sustentan en una epistemologa en la que el objetivo
es producir modelos estadsticos sofisticados que explicar, simular y predecir la vida
humana. Esto es mucho ms difcil de conciliar con los enfoques post-positivista. Incidencia
continuacin, se basa en la utilidad y el valor del mtodo y modelos, no en proporcionar
anlisis complementario de un conjunto ms amplio de datos.
Hay una alternativa potencialmente fructfera a esta posicin que adopta y extiende las
epistemologas empleadas en SIG crtica y estadsticas radicales. Estos enfoques emplean
tcnicas cuantitativas, la estadstica inferencial, modelado y simulacin teniendo siempre
en cuenta y abierto con respecto a sus epistemolgicas deficiencias, sobre la base de la
teora social crtica para enmarcar cmo se realiza la investigacin, cmo sentido se hace
de los resultados, y el conocimiento empleado. Aqu, hay un reconocimiento de que la
investigacin no es una actividad neutra y objetiva que produce una vista de la nada, y que
no hay una poltica inherentes que impregnan los conjuntos de datos analizados, la
investigacin se llev a cabo, y las interpretaciones ( Haraway, 1991 ; Rose, 1997 ) . Como
tal, el investigador es reconocido poseer una determinada posicionalidad (con respecto a
Conclusin
Hay pocas dudas de que el desarrollo de grandes volmenes de datos y nuevos anlisis de
datos ofrece la posibilidad de replantear la epistemologa de la ciencia, las ciencias sociales
y las humanidades, y un replanteamiento tales ya est teniendo lugar de forma activa en
todas las disciplinas. Grandes volmenes de datos y nuevos anlisis de datos permiten a
los nuevos enfoques para la generacin de datos y de anlisis que deben implementado
que hacen que sea posible formular y responder preguntas de nuevas maneras. En lugar
de tratar de extraer conocimientos de los conjuntos de datos limitados por el alcance, la
temporalidad y tamao, grandes volmenes de datos proporciona el problema contador de
manejar y analizar enormes, dinmicos y variados conjuntos de datos. La solucin ha sido
En lo que respecta a las ciencias, el acceso a grandes volmenes de datos y nuevas praxis
de investigacin ha llevado a algunos a proclamar el surgimiento de un nuevo paradigma
de cuarta, que hunde sus races en la exploracin de datos intensivos que desafa el
enfoque deductivo cientfica establecida. En la actualidad, si bien es evidente que los
grandes datos es una innovacin disruptiva, que presenta la posibilidad de un nuevo
enfoque de la ciencia, no se establece la forma de este enfoque, con dos caminos posibles
propuestas que tienen epistemologas divergentes - empirismo, en el que los datos pueden
hablar por s mismos libres de la teora y la ciencia basada en datos que modifica
radicalmente el mtodo cientfico existente mediante la mezcla de los aspectos de la
abduccin, la induccin y la deduccin. Dada la debilidad de los argumentos empricos,
parece probable que el enfoque impulsado por los datos con el tiempo ganar fuera y con el
tiempo, ya que se vuelve ms comn de datos grandes y nuevos anlisis de datos se hacen
avanzar, presentar un fuerte desafo al mtodo cientfico basada en el conocimiento
establecido . Para acompaar esta transformacin de las bases filosficas de la ciencia
basada en datos, con respecto a sus principios epistemolgicos, los principios y la
metodologa, necesitan ser resueltos a travs debatido y proporcionar un marco terico
slido para el nuevo paradigma.
econmicos, polticos e histricos. Tambin plantea una serie de retos, incluyendo un dficit
de habilidades para analizar y dar sentido a estos datos, y la creacin de un enfoque
epistemolgico que permite formas post-positivista de la ciencia social computacional. Un
posible camino a seguir es una epistemologa que se inspira en SIG crtica y estadsticas
radicales en los que se emplean mtodos y modelos cuantitativos dentro de un marco que
es reflexiva y reconoce el carcter situado, posicionalidad y la poltica de la ciencia social
que se llev a cabo, en lugar de rechazar dicha una acercarse de las manos. Tal
epistemologa tambin tiene utilidad potencial en las ciencias para el reconocimiento y la
contabilidad de la utilizacin del secuestro y la creacin de una ciencia basada en datos
ms reflexiva. Como ilustra esta discusin preliminar, hay una necesidad urgente de mayor
reflexin crtica sobre las implicaciones epistemolgicas de grandes volmenes de datos y
anlisis de datos, una tarea que apenas ha comenzado a pesar de la velocidad de los
cambios en el paisaje de datos.
Expresiones de gratitud
Evelyn Ruppert y Mark Boyle proporcionan algunos comentarios tiles sobre un borrador
inicial de este trabajo. La investigacin para este trabajo fue financiado por una avanzada
Investigator Award Consejo Europeo de Investigacin, "La Ciudad programable '(ERC2012-ADG-323636).
referencias
Wired
23
de
junio
de
2008.
Disponible
en:
http://www.wired.com/science/discoveries/magazine/16-07/pb_theory ( alcanzado el 12 de
octubre de 2012) .
Batty M ,Axhausen KW ,Giannotti F ,et al.( 2012 ) ciudades inteligentes del futuro . Temas
Europea de Fsica Diario especiales 214 : 481 - 518 .CrossRef Google Acadmico
Berry D (2011) El giro computacional: Pensando en las humanidades digitales. Cultura de
la
mquina
12.
Disponible
en:
http://www.culturemachine.net/index.php/cm/article/view/440/470 (consultado el 3 de
diciembre de 2012) .
Bettencourt LMA ,Lobo J ,Helbing D ,et al.( 2007 ) El crecimiento, la innovacin, la escala
y el ritmo de vida en las ciudades . Actas de la Academia Nacional de Ciencias 104 ( 17 ):
7301 - 7306 .Resumen / GRATIS texto completo Google Acadmico
Bollier D (2010) La promesa y el peligro de grandes volmenes de datos . El Instituto
Aspen.
Disponible
en:
http://www.aspeninstitute.org/sites/default/files/content/docs/pubs/The_Promise_and_Peril
_of_Big_Data.pdf (acceso el 1 de octubre de 2012) .
Boyd D ,Crawford K( 2012 ) Las preguntas crticas para grandes volmenes de datos .
Informacin, Comunicacin y Sociedad 15 ( 5 ): 662 - 679 .CrossRef Web of Science Google
Acadmico
Brooks D (2013) Qu datos no pueden hacer. New York Times , 18 de febrero de 2013.
Disponible en: http://www.nytimes.com/2013/02/19/opinion/brooks-what-data-cant-do html
(consultado el 18 de febrero de 2013) .
Bryant R, Katz HR y Lazowska ED (2008) Big-computacin de datos: Creacin de
revolucionarios avances en el comercio, la ciencia y la sociedad. En: Informtica Iniciativas
de Investigacin para el siglo 21, la Asociacin de Investigacin de Computacin, Ver. 8
Disponible en:. Http://www.cra.org/ccc/docs/init/Big_Data.pdf (alcanzado el 12 de octubre
de 2012) .
Clark L (2013) sin hacer preguntas: firma de datos de mapas grandes soluciones sin la
intervencin
humana.
Wired
16
de
enero
http://www.wired.co.uk/news/archive/2013-01/16/ayasdi
de
2013.
Disponible
en:
-grande-data-lanzamiento
en:
http://techcrunch.com/2012/08/22/how-big-is-facebooks-data-2-5-billion-
20
de
noviembre.
Disponible
en:
http://blogs.hbr.org/cs/2012/11/eureka_doesnt_just_happen.html (consultado el 23 de
noviembre de 2012) .
de febrero
de 2013.
Disponible
scotsman/opinion/comment/tiffany-jenkins-don-t
en:
http://www.scotsman.com/the-
-count-en-big-datos-a-respuestas-1-
Grupo
meta.
Disponible
en:
http://blogs.gartner.com/doug-
en:
http://radar.oreilly.com/2010/06/what-is-data-science.html
(Accessed
January 28 2013 ) .
Manovich L (2011) Tendencias: Las promesas y los desafos de grandes volmenes de
datos
sociales.
Disponible
en:
Review
of
Books
el
28
de
octubre
de
2012.
Disponible
en:
Marz N ,Warren J. MEAP ( 2012 ) Big Data: Principios y Buenas Prcticas de escalable en
tiempo real Data Systems , Westhampton : Manning .
Mayer-Schnberger V ,Cukier K( 2013 ) Big Data: Una revolucin que cambiar la forma
de vivir, trabajar y pensar , Londres : John Murray .
Miller HJ( 2010 ) La avalancha de datos est aqu. No deberamos estar cavando? Journal
of Regional Science 50 ( 1 ): 181 - 201 .CrossRef Google Acadmico
Moretti F( 2005 ) Los grficos, mapas, rboles abstractos: Modelos para una historia
literaria , Londres : Verso .
Para abrir Centro de datos de la alianza (2012) Gua para el consumidor de datos grandes
.
Abra
Data
Center
Alliance.
Disponible
en:
http://www.opendatacenteralliance.org/docs/Big_Data_Consumer_Guide_Rev1.0.pdf
(consultado el 11 de febrero de 2013) .
Un Pentland (2012) Reinventar la sociedad a raz de grandes volmenes de datos. Edge
30 de agosto de 2012. Disponible en: http://www.edge.org/conversation/reinventing-societyin-the-wake-of-big-data (accedido el 28 de enero de 2013) .
Porway J (2013) No se puede abrirse paso con el cambio social. Harvard Business Review
Blog
de
marzo
de
2013.
Disponible
en:
sabidura
digital
de
Innovar
(3).
Disponible
en:
de
2013.
Disponible
en: