CM BOT

Existen varios metodos para conseguir usuarios en redes sociales, pero los mas populares están enfocados a la compra de cuentas, la gran mayoría falsas y avisos pagados. El primero no es efectivo y el segundo consigue resultados pero luego de invertir cientos o miles de dolares en múltiples campañas digitales. Se puede comparar como abrir una llave de anuncios, en donde muy pocos llegaran a usuarios objetivos.

Como un nuevo enfoque para aumentar seguidores a una cuenta en particular, hemos desarrollado CMBot. Es una aplicación para conseguir seguidores para usuarios de Instagram. Se basa en el principio de la interacción social para contactar a otros usuarios afines a través de mensajes, likes y follows y unfollows automaticos. La búsqueda de usuarios afines se realiza mediante los hashtags y el contenido de las publicaciones entre comunidades. Tenemos ya varios casos de éxito, en los que se ha incrementado el ratio de seguidores hasta 1000 followers nuevos en 8 dias de usar la aplicación.

Podemos configurarle una version trial por 15 dias, para una sola cuenta de Instagram. Puede contactarme al correo info@facilemprendimiento.com

 

Al igual que los mapas topográficos de las cordilleras, los mapas de red también pueden ilustrar los puntos del paisaje que tienen la elevación más alta. Algunas personas ocupan ubicaciones en redes que son análogas a posiciones de importancia estratégica en el paisaje.  Medidas de  «centralidad» de la red, puede identificar a las personas clave en lugares influyentes en la red de discusión, destacando las personas que conducen la conversación. El contenido que estas personas crean es a menudo el más popular y ampliamente repetido en estas redes, lo que refleja el importante papel que estas personas desempeñan en las discusiones de los medios sociales.

Mientras que el mundo físico ha sido mapeado con gran detalle, el paisaje de los medios de comunicación social sigue siendo en su mayoría desconocido. Sin embargo, las herramientas y técnicas para el mapeo de medios sociales están mejorando, permitiendo a más analistas obtener datos de medios sociales, analizarlos y contribuir a la construcción colectiva de un mapa más completo del mundo de los medios sociales. Un mapa más completo y la comprensión del panorama de los medios sociales ayudarán a interpretar las tendencias, los temas y las implicaciones de estas nuevas tecnologías de comunicación.

redes twitter

Multitudes Polarizadas: Las discusiones polarizadas cuentan con dos grupos grandes y densos que tienen poca conexión entre ellos. Los temas que se discuten suelen ser temas políticos altamente divisivos y acalorados. De hecho, por lo general hay poca conversación entre estos grupos a pesar de que se centran en el mismo tema.

Por qué esto es importante: muestra que los usuarios de Twitter se basan en diferentes fuentes de información. Mientras que los usuarios liberales enlazan con muchas fuentes de noticias convencionales, los conservadores se enlazan con un conjunto diferente de sitios web.

Multitudes ajustadas: Estas discusiones se caracterizan por personas altamente interconectadas y con pocos participantes aislados. Muchas conferencias, temas profesionales, grupos de aficionados y otros temas que atraen a las comunidades toman esta forma de multitud estrecha.

Por qué esto importa: Estas estructuras muestran cómo funcionan las comunidades de aprendizaje en red y cómo el intercambio y el apoyo mutuo pueden ser facilitados por los medios de comunicación social.

Clusters de marcas: Cuando se comentan productos o servicios bien conocidos o temas populares como celebridades en Twitter, a menudo hay comentarios de muchos participantes desconectados. Las marcas conocidas y otros temas populares pueden atraer grandes poblaciones fragmentadas de Twitter, pero no unidas entre sí. Cuanto mayor sea la población hablando de una marca, menos probable es que los participantes están conectados entre sí. Los participantes que mencionan las marcas se enfocan en un tema, pero tienden a no conectarse entre sí.

Por qué esto importa: todavía hay instituciones y temas que exigen el interés de la masa. Muchas veces, la charla de Twitter acerca de estas instituciones y sus mensajes no está entre las personas que se conectan entre sí. Más bien, están transmitiendo o transmitiendo el mensaje de la institución o persona y no hay intercambio extra de ideas.

Clústeres Comunitarios: Algunos temas populares pueden desarrollar múltiples grupos más pequeños, que a menudo forman alrededor de unos cuantos centros cada uno con su propio público, influyentes y fuentes de información.  Las noticias mundiales a menudo atraen la cobertura de muchos medios de noticias, cada uno con su propio seguimiento. Esto crea una colección de grupos de tamaño mediano y un buen número de aislamientos.

Por qué esto importa: Algunas fuentes de información crean varias comunidades que fomentan su propio público y comunidad. Estos pueden ilustrar diversos ángulos sobre un tema basado en su relevancia para diferentes públicos, revelando una diversidad de opinión y perspectiva en un tema de medios sociales.

Red de difusión (Broadcast Network):  Los comentarios en Twitter acerca de noticias nuevas, pueden presentar una estructura  en la que muchas personas repiten las noticias prominentes y tweets de  de medios de comunicación tweet.

Por qué esto importa: Todavía hay poderosos programadores de agenda y arrancadores de conversación en el nuevo mundo de los medios sociales. Las empresas y personalidades con seguidores leales todavía pueden tener un gran impacto en la conversación.

Red de apoyo: Las quejas de los clientes de una gran empresa a menudo son manejadas por una cuenta de servicio de Twitter que intenta resolver y gestionar problemas de clientes en torno a sus productos y servicios.  La estructura de red de soporte, responde a muchos usuarios desconectados, creando radios externos.

Por qué esto es importante: A medida que el gobierno, las empresas y los grupos prestan cada vez más servicios y apoyo a través de las redes sociales, las estructuras de la red de apoyo se convierten en un punto de referencia importante para evaluar el desempeño de estas instituciones. Los flujos de asesoramiento y retroalimentación de atención al cliente pueden medirse en términos de eficiencia y alcance utilizando mapas de redes de redes sociales.

Stanley Milgran, fue un psicólogo social estadounidense, que creo el concepto de: «Los seis grados de concepto de separación», basándose en el  «experimento del pequeño mundo» en el cual rastreó cadenas de conocidos en los Estados Unidos. En el experimento, Milgram envió varios paquetes a 160 personas aleatorias que vivían en Omaha, Nebraska, pidiéndoles que remitieran el paquete a un amigo o conocido que pensaban que acercaría el paquete a un individuo final, un corredor de bolsa de Boston, Massachusetts.

Cada «iniciador» recibió instrucciones de enviar una carpeta a través de la Oficina de Correos de los Estados Unidos a un destinatario, pero con algunas reglas. Los iniciadores sólo podían enviar el paquete a alguien que realmente conocieran personalmente y que coincidiera con el primer nombre. Al hacerlo, cada participante ordenó a su destinatario que enviara por correo el paquete a una de las personas conocidas de este último con las mismas instrucciones, con la esperanza de que su conocido pudiera por casualidad, conocer al destinatario objetivo.

Al final del experimento,  la entrega de cada paquete solamente llevó, como promedio, entre cinco y siete intermediarios, lo que hizo famosa la frase «seis grados de separación», en el argot popular, dando incluso el nombre a una película.

Facebook, en el 2008,  realizo el calculo (page rank) de las conexiones promedio entre todos sus usuarios y el resultado fue 4,74, mejorando aun el promedio de 6 establecido por Milgran.

Ahora si por nuestra cuenta queremos comprobar las conexiones entre personas, les recomiendo la pagina del Oraculo de Bacon:  https://oracleofbacon.org/movielinks.php

Sabemos quien es Kevin Bacon (el actor de Footloose, el Hombre Invisible y muchas otras). La pagina lleva su nombre porque es el actor con mayor numero de conexiones entre los demás actores (compañeros de trabajo), es decir tiene la mayor centralidad de grado.

sm2

La pagina tiene casi 20 años, y toma los datos del IMDB, la base de datos de las películas, pero ha mejorado en dos aspectos. El primero es que los criterios están abiertos para consultar el numero de conexiones entres dos actores distintos a Kevin Bacon, y el segundo es que la base del IMDB, es ahora global y no solo de películas de Hollywoood.

Hice la prueba entre dos artistas ecuatorianos: Julio Jaramillo y Maria Elisa Camargo  (recalco que ambos son ecuatorianos), y el numero de conexiones fue de 3. Esto a pesar de que Julio Jaramillo, lleva 40 años fallecido.

oraculo

La rama que estudia las conexiones entre individuos es el análisis de redes sociales,  y se utiliza activamente en sociología, antropología, ciencia política, gestión organizacional y medios de comunicación.  En muchos casos el análisis de redes sociales se fundamenta en el estudio de los agentes en la estructura de la red, para ello se hace un análisis de las medidas de centralidad de los actores de la propia red social con el objetivo de ver las relaciones de poder, de protagonismo, confianza y la detección de comunidades y grupos.

Los conceptos de analisis de redes sociales, son aplicados a través de algoritmos computacionales,  y nos pueden permitir descubrir como están conformadas redes sociales tales como: Facebook, Twitter, Likendin, Youtube, Google plus y demás, ya sea propias,  de una marca, negocio o celebridad. Esto con el fin de detectar los usuarios mas influyentes de esa red, las comunidades que se forman alrededor de un tema o tópico de interés y como se propagan los mensajes en las distintas comunidades conformadas en las redes sociales, entre otros puntos.

 

Los medios sociales anotados geográficamente son extremadamente valiosos para la recuperación moderna de la información. Sin embargo,  los usuarios de redes sociales rara vez publican información de localización. conforman su red social.

geo

El paper: Geotagging One Hundred Million Twitter Accounts with Total Variation Minimization, de  Ryan Compton, David Jurgens y David Allen, ofrece un nuevo enfoque para solucionar este problema, proponiendo un algoritmo que  infiere la ubicación de un usuario desconocido, a partir de ubicaciones de los amigos con los que se conecta a través  de menciones en tweets,  y que conforman su red social.

gep1

Donde f = (f1; fn) es la locación estimada para cada usuario y  L es el set de usuarios, d es la distancia geodésica y wij, los pesos equivalentes al mínimo número de menciones.

El enfoque busca una red tal que la suma sobre todas las distancias geográficas entre usuarios conectados sea lo más pequeña posible. Esta suma se conoce como la variación total.

Metodología.

Se construyó una red social, G = (V; E), con usuarios como vértices y @menciones entre usuarios como aristas, usando  10% de la muestra de  tweets públicos  de Abril 2012 hasta Abril del  2014., con un peso de  76,9TB de datos, con 25.312.399.718 de @menciones. Se filtraron las menciones reciprocas, para conformar una red de  1.034.362.407 enlaces y 110.893.747 usuarios.  Del  número total de usuarios, el subtotal con localizaciones confirmadas vía GPS o auto-informes es 24.545.425.  Los usuarios con ubicaciones conocidas por GPS constituyen sólo una pequeña porción de las redes de menciones.

En cada iteración, el algoritmo actualiza simultáneamente la ubicación de cada usuario con la mediana l1 multivariante de las ubicaciones de sus amigos. Sólo después de que todas las actualizaciones estén completas comunicamos nuestros resultados a través de la red.

El framework Apache Spark se utilizó para implementar el algoritmo en una arquitectura Big Data. Permite distribuir los datos en la memoria del clúster haciendo uso de conjuntos de datos distribuidos resilientes (denominados RDD) y operando en estos conjuntos de datos, con código Scala.

geo2

La  red y las locaciones de usuarios se almacenan en los RDDs edgeList y userLocations., los cálculos de estos RDD hacen uso de todos los recursos de la CPU del clúster disponibles. El algoritmo se implementa con un simple map y un filtro. La comunicación de las ubicaciones actualizadas a través de la red se logra con una combinación en la lista de vértices, seguida de un groupByKey, que establece una lista de adyacencias para el siguiente mapa.

Análisis de resultados

El algoritmo fue ejecutado en la red bidireccional y los resultados se informan después de 5 iteraciones. El número de usuarios geo codificados después de cada iteración es el siguiente:

geo3

La probabilidad de que un usuario sea geo codificado por el método planteado aumenta cuando existe un incremento un nivel de actividad de la función. Una gran fracción de usuarios  pierde el interés en Twitter después de generar un pequeño número de Tweets, lo que dificulta su localización calculada.

geo5

Para evaluar la cobertura, se examinaron 4.835.561.225 tweets recogidos entre el 2013-01-01 y el 2013-04-07. Estos tweets fueron generados por 117.215.282 usuarios. El método fue capaz de geo codificar el 89% de los tweets. Podría aumentar el porcentaje si todas las ubicaciones reportadas no-vacías no fueran ambiguas.

geo6

Para la precisión se realizo una validación cruzada, tomando un 10% del set de  12.297.785 usuarios que revelaron su posición GPS.  Después de 5 iteraciones del algoritmo, se pudo inferir la locación de 966.515 usuarios, con una Desviación absoluta mediana (median error) de 6,33 kms .

Conclusiones

  • El uso de Apache Spark está justificado por el gran volumen de datos a ser procesados para la conformación de las redes y el cálculo de las distancias geográficas.
  • El hecho que se pueda inferir las locaciones de usuarios, a partir de datos públicos, permite que se  analicen nuevos algoritmos para el cálculo de las distancias geográficas, con mayor precisión y con mejor cobertura.
  • Implementar métodos para eliminar datos de localizaciones (auto-informes) que sean ambiguos, ya que generan errores en el procesamiento de las distancias de usuarios.
  • Se conseguiría mejor cobertura si el método considera que la relación por menciones sea unidireccional.

Los distintos algoritmos de clustering, permiten encontrar agrupamientos de tal forma que los objetos de un grupo sean similares entre sí y diferentes de los objetos de otros grupos.  Pueden detectar regiones densas de puntos separadas de otras regiones densas por regiones poco densas de otros grupos.  Al ser métodos de aprendizaje no supervisado, se caracterizan por que en los datos no existen clases predefinidas

Los resultados obtenidos dependerán del algoritmo de agrupamiento seleccionado, el conjunto de datos disponible y la medida de similitud utilizada para comparar objetos (usualmente, definida como medida de distancia).

El presente trabajo, trata sobre la comparación de los resultados obtenidos de tres algoritmos de clustering, aplicados a un mismo dataset:  K-Means y Clustering Jerárquico

Dataset

El dataset utilizado  para el siguiente estudio, se refiere a información correspondiente a animales en cautiverio, que son distintos entre sí. Cada registro de un animal contiene 17 atributos biológicos, la mayoría son  booleanos  y hacen referencia sobre diversas características propias de su  especie. Así tenemos, si el animal es mamífero, pone huevos, es doméstico, acuático, dentado, etc. El atributo nombre de animal, es un identificador único y el atributo «tipo» corresponde el atributo de clase con valores del 1 al 7. Esta columna no se considera para la ejecución de los algoritmos de clustering.

El dataset esta publicado en http://sci2s.ugr.es/keel/dataset.php?cod=69

fig1

Metodología

Para el dataset, fue aplicado los métodos de clustering: x. Para los algoritmos: K-Means y Clustering Jerárquico, se realizó la técnica de acodamiento  para encontrar el valor más adecuado para el número de agrupamientos (clúster) en una primera instancia.

Para los algoritmos K-Means y Clustering Jerárquico  se aplicó  la técnica del promedio Silhouette para medir la calidad de los agrupamientos (clusters) encontrados. Este método va a permitir determinar qué tan bien cada objeto se encuentra dentro de su agrupación. El número óptimo de clusters k es el que maximiza la silueta promedio en un rango de posibles valores de k.

Para el algoritmo DBSCAN, se utilizó la técnica KNN (k-nearest neighbors), para hallar el valor más adecuado de la distancia épsilon.  El objetivo de su aplicación es  calcular el promedio de las distancias de todos los puntos a sus k vecinos más cercanos. El valor de k será incremental en un ciclo y se corresponde con MinPts.

A continuación con la distancia óptima calculada con la técnica KNN, se realizaron varias iteraciones para calcular los agrupamientos obtenidos con el algoritmo DBSCAN, con un valor de minPts de 2 a 20. El  valor de minPts óptimo se lo asociara con número máximo de clusters determinado, luego de la ejecución de todas las iteraciones

Resultados

Algoritmo K-MEANS

Al ejecutar la técnica de acodamiento, se puede observar que el numero sugerido de clusters K,  como parámetro para el algoritmo K-Means está entre 4 y 5.

fig2

Fig. 1 Técnica del codo en K-Means

Al ejecutar la técnica del promedio Silhouette, en un rango de entre 2 a 10 particiones, el resultado sugiere que el número óptimo de agrupamientos (clusters), para el dataset es 6

fig3

Fig. 2.  Técnica Promedio Silhouette para algoritmo K-Means

k.max <- 10
data <- data.scaled
sil <- rep(0, k.max)
#for(i in 2:k.max)

{ km.res <- kmeans(data, centers = i, nstart = 25)
ss <- silhouette(km.res$cluster, dist(data))
sil[i] <- mean(ss[, 3])}

# Plot the  average silhouette width

plot(1:k.max, sil, type = «b», pch = 8,
frame = FALSE, xlab = «Number of clusters k»)
abline(v = which.max(sil), lty = 2)

A continuación se procesa, el algoritmo K-Means, con parámetro K =6, y aplicamos un plot gráfico. Se obtiene el siguiente resultado

fig4

Fig. 3. Clusters obtenidos con algoritmo K-Means

 

Agrupamiento jerárquico

Al ejecutar la técnica de acodamiento, se puede observar que el numero sugerido de clusters K,  como parámetro para el algoritmo K-Means está entre 5 y 6.

fig5

Fig. 4.  Técnica del codo en Clustering Jerárquico

Al ejecutar la técnica del promedio Silhouette, en un rango de entre 2 a 12 particiones, el resultado sugiere que el número óptimo de agrupamientos (clusters), para el dataset es 5.

fig6

Fig. 5.  Técnica Promedio Silhouette para algoritmo K-Means

k.max <- 12
data <- zoo.data.scaled
sil <- rep(0, k.max)

# Compute the average silhouette width for
for(i in 2:k.max){ km.res <-eclust(zoo.data.scaled, «hclust», k = i, graph = FALSE)
ss <- silhouette(km.res$cluster, dist(data))
sil[i] <- mean(ss[, 3])}

plot(1:k.max, sil, type = «b», pch = 15,
frame = FALSE, xlab = «Number of clusters k»)
abline(v = which.max(sil), lty = 2)

Se ejecuta el algoritmo de clustering jerárquico, con corte de k=6 y aplicamos un plot gráfico y obtenemos el siguiente resultado

fig7

Fig. 6. Dendograma obtenido con algoritmo Clustering Jerárquico

 

Algoritmo DBSCAN

Se aplicó la técnica KNN para evaluar distancias de 0 a 2,5, para el dataset en cuestión y se determinó que con un numero de MinPts = 4, la distancia épsilon optima es de 1.8. Luego de las iteraciones con un valor del parámetro MinPts de 3 a 8, se puede observar el número máximo de clusters calculado es de 6, para valores de MinPts = 4  y a partir de un valor de MinPts = 6, el número de clusters comienza a decrecer.

fig-9

Fig. 7. Comparación de Clusters en relación al número de puntos mínimos en DBSCAN

 

Conclusiones

Entre los algoritmos KMeans y Clustering Jerárquico, el valor del promedio Silhouette, se maximiza  para el algoritmo KMeans, con 0.4095, con 6 clusters. A continuación se presenta la siguiente tabla, en los que se detalla en número de clusters proyectado y la medida promedio Silhouette calculada.

Algoritmo/Cluster 2 3 4 5 6 7
hierarchical  Silhouette 0.2613 0.3008 0.3842  0.4033  0.3866 0.4009
Kmeans  Silhouette 0.2635 0.2937 0.4017 0.4071 0.4085 0.4052

 

Con respecto al algoritmo DBSCAN, el número de clusters calculado con una distancia épsilon = 1.8 y MinPts = 4, es de 6.

El número de clases (grupos) para el dataset evaluado es de 7, por lo que se puede concluir que los algoritmos K-Means y DBSCAN, han presentado alto grado de bondad y una calidad aceptable en lo que a medidas de similitud se refiere, con respecto al conjunto de datos en lo que fueron aplicados,

 

 

Para tener presencia en la red, es un hecho que debemos formar comunidades en sitios sociales con el fin de dar a conocer nuestro producto o servicio y con el tiempo conseguir respeto y confianza de los seguidores hacia nuestra imagen.

Para poder conformar comunidades que se afilien a nuestro producto o servicio, podemos seguir varias estrategias.  En primer lugar debemos considerar que existen tres tipos de personas relevantes en las comunidades en medios sociales que debemos identificar.

  • Influencers.– Tienen una importante red de contactos. La comunidad presta atención a su contenido y lo comparte de forma desinteresada.
  • Expertos (informadores).– Poseen información privilegiada y se preocupan y divierten por compartirla.
  • Miembros.- (Follows y Followers que integran una comunidad, en base a un actor o un hashtag).

El establecer relaciones con usuarios influencers y que estos compartan nuestro contenido nos ayuda a posicionarnos en la red y a ganar nuestros propios seguidores. Por ello es muy importante identificarlos y hacerlos parte de nuestras comunidades en los sitios sociales seleccionados.

  • INFLUENCERS

Para poder identificar donde están nuestros potenciales influencers y seguidores, podemos guiarnos por la denominada pirámide Social. La misma se refiere a la clasificación de los sitios sociales de acuerdo al sentido y al valor de la información que manejan sus comunidades  (Make Sense) y a la oportunidad de posicionar nuestra audiencia o mercado en ellas.

Ordenada de menor a mayor, en el sitial mas bajo, se encuentran las redes sociales.  Por ejemplo en Facebook, es común encontrar conversaciones sobre temas particulares, pero las mismas son comentarios u opiniones que no aportan mayor valor agregado.

En los sitios de noticias y sitios para las conexiones motivacionales, existe mayor oportunidad de encontrar comunidades que se identifiquen con nuestros productos o servicios. Por ejemplo si vendemos figuras de acción de luchadores, en los foros de Wrestlemania podemos encontrar potenciales seguidores y porque no clientes.

En las paginas de conexiones de videos y de lideres de pensamiento, también podemos hallar comunidades que sigan ideales, compartan gustos y preferencias especificas.

piramide 2

Las comunidades virtuales son los sitios sociales que ofrecen la información mas relevante. Las opiniones y comentarios son muy respetados y aportan al conocimiento en temas muy específicos.  En estos sitios es donde tenemos mayor oportunidad de encontrar comunidades muy particulares para nuestros propósitos.  Como ejemplos tenemos: Circle of Moms, sitio en el que millones de padres de niños pequeños realizan y hacen preguntas y Stackoverflow, sitio en el que millones de programadores y científicos de ciencias de la computación comparten sus conocimientos y ganan reputación.

 

Deep Learning es una  técnica de aprendizaje artificial que ya ha dotado a los ordenadores de una capacidad para reconocer la voz, clasificar imágenes, videos y ha realizado impresionantes avances en procesamiento de lenguaje natural.

Deep Learning implica la aplicación repetida de cálculos a los datos, que pueden ser imágenes o sonido, para reconocer atributos clave y similitudes. Aunque existen varias maneras de implementar Deep Learning, una de las más comunes es utilizar redes de neuronas. Una red de neuronas es una herramienta matemática que modela, de forma muy simplificada, el funcionamiento de las neuronas en el cerebro. Otra forma de verlas, es como un procesador de información, que recibe información entrante, codificada como números, hace un poco de magia, y produce como resultado información saliente, codificada como otros números.

Los principios matemáticos que forman la base del aprendizaje profundo son relativamente sencillos, pero cuando se combinan con enormes cantidades de datos de aprendizaje y sistemas informáticos que ejecutan múltiples operaciones en paralelo, la técnica ha dado paso a grandes avances en los últimos años, sobre todo en los campos de reconocimiento de voz e imágenes.

Por ejemplo, Google utiliza aprendizaje profundo para el reconocimiento de voz en móviles Android, mientras que Facebook utiliza la tecnología para identificar amigos en las fotos de sus usuarios.   Andrew Ng, profesor adjunto de la Universidad de Stanford (USA), cocreador de Coursera (mis agradecimientos) y  director de Tecnología de la empresa china Baidu, Andrew Ng, dijo en la conferencia que el aprendizaje profundo ya ha demostrado su utilidad. «Una de las cosas que Baidu hizo muy bien desde el principio fue crear una plataforma interna de aprendizaje profundo», dijo Ng. «Un ingeniero de nuestro grupo de sistemas decidió utilizarlo para identificar con un día de antelación cuándo va a fallar el disco duro. Utilizamos aprendizaje profundo para detectar intrusiones. Ahora mucha gente está aprendiendo acerca del aprendizaje profundo y lo intentan aplicar a muchos problemas distintos».

Para campañas de social media, deep learning puede reconocer la identificación de usuarios así como sus gustos y preferencias, extraídas de imágenes y/o videos.  Por ejemplo de una foto de un grupo de amigos en una fiesta, se puede identificar a cada uno de ellos, reconociéndolos por sus similitudes con fotos de perfiles en redes sociales. Incluso se puede extraer características de productos asociados a la imagen, como por ejemplo bebidas, marcas de ropa, sitios de interés, para con esa información realizar campanas personalizadas de contenido.

Les dejo el video de Andrew Ng y los avances en Deep Learning.  El lo cataloga como el estado del arte en aprendizaje no supervizado .

¿Cómo podemos conocer si hay un publico que escucha lo que decimos? Emprendedores y negocios pueden mirar a Klout por respuesta. Este sitio web gratuito analiza los datos de  las cuentas de Twitter, Facebook, Linkedin,  y mide  del 1 al 100 la influencia en línea en general.

El sitio  mide  aproximadamente 35 variables de Facebook y Twitter, entre ellas: «verdadero alcance», «amplificación» e «impacto en la red». El verdadero alcance se refiere al tamaño de la audiencia de un usuario determinado,  la cual participa activamente en sus mensajes. La puntuación de amplificación se refiere a la probabilidad de que uno de los mensajes generarán acciones, como retweets, menciones, gustos y comentarios.  El impacto de red refleja el valor calculado de influencia de la audiencia  de un usuario.

Además, el sitio determina los temas que son más influyentes, con base en el análisis del tipo de contenido que producen y la participación de la comunidad. Klout también permite a sus usuarios sugerir temas para sí mismos y otros.   Entonces, ¿cuál es el punto de tener una puntuación Klout para las marcas y los usuarios? En lugar de nombrar a las marcas mas influyentes, Klout trabaja ofreciendo a las marcas la oportunidad de dar ‘gratificaciones Klout’ a usuarios influyentes.

La plataforma utiliza el modelo de negocio simple pero eficaz. Las compañías pagan Klout para campañas, donde se ofrecen productos y servicios gratuitos a los usuarios influyentes Klout. Con cada campaña, los usuarios Klout son seleccionados en base a sus puntuaciones, los temas, la demografía y la ubicación. Pero los usuarios que reciben beneficios no están bajo ninguna obligación de escribir o revisar sobre lo que reciben, sin embargo, las marcas esperan que cierto porcentaje de usuarios influyentes puedan escribir sobre sus productos y servicios.

KLOUT

Course Signals (CS) es un sistema de analítica del aprendizaje,  que permite el éxito del estudiante en la facultad para proporcionar retroalimentación significativa al estudiante basado en modelos predictivos. La premisa detrás de CS es bastante simple: Utiliza la gran cantidad de datos que se encuentran en una institución educativa, incluyendo los datos recogidos por las herramientas de instrucción, para determinar en tiempo real que los estudiantes podrían estar en riesgo, parcialmente indicado por su esfuerzo dentro de un curso.

Signals tiene cuatro componentes

  • El rendimiento, medido por el porcentaje de cantidad de puntos en curso hasta la fecha
  • El esfuerzo, tal como se define por la interacción BlackBoard LMS de Purdue, en comparación con los estudiantes compañeros;
  • El historial académico previo, incluyendo la preparación académica, GPA de escuela secundaria, y resultados de las pruebas estandarizadas (Extraído con tecnicas de Datamining y Bidgata)
  • Las características del estudiante, tales como la residencia, edad o créditos intentados.

El ayudar a un estudiante a integrarse académicamente a la institución es la clave de Signals, que  ayuda a promover la integración de varias maneras.

  • Permite a los miembros de la facultad enviar correos electrónicos personalizados a los estudiantes que contienen información acerca de su rendimiento actual en un curso dado.
  • Los miembros de la facultad, pueden animar a los estudiantes a visitar usar varios recursos de ayuda o realizar actividades que contribuyen a que el estudiante se integre plenamente con la institución.
  • Emplea la analítica del alumno para permitir la integración de datos en tiempo real del rendimiento de los estudiantes, la interacción con el LMS, la información demográfica y el historial académico.

Los resultados del algoritmo SSA, se muestra una señal en rojo, amarillo o verde en la página principal del curso de un estudiante. Una luz roja indica un alta probabilidad de no tener éxito; luz amarilla indica que un potencial problema esta sucediendo y una señal verde demuestra un alta probabilidad de tener éxito en el curso. El algoritmo genera un indicador riesgo-curso específico para cada estudiante basado en el rendimiento, el comportamiento basado en pares, y datos de preparación educativa. Los instructores pueden intervenir a tiempo y brindar a los estudiantes una oportunidad realista de adaptar su comportamiento.

dash

Resultados

El otoño del 2007, 2008 y 2009, se compararon las cohortes de principiantes con una lista de todos los participantes de CS en la Universidad Purdue,  para determinar que estudiantes usan CS o no en sus cursos. Cada semestre, los estudiantes en cada cohorte, presentan retención o una conducta de salida.  La tasa de retención se calcula sumando los estudiantes que todavía están inscritos y que se han graduado y dividiendo esa suma por el número total de estudiantes por primera vez a tiempo completo en el cohorte original.

Los alumnos que comenzaron en Purdue 2007 (Tabla 1), 2008 (Tabla 2), y 2009 (Tabla 3) y participado en al menos un curso con CS,  son retenidos en tasas significativamente más altas que sus compañeros que no tenían clases con CS durante el mismo semestre. Además, los estudiantes que tienen dos o más cursos con CS se mantienen constantemente a tasas más altas que las que tenían sólo uno o ningún curso con CS.

tabla2

Futuros retos para Course Signals

  • La adquisición de datos de diversas fuentes (Social Networks Analysis, Video, etc.)
  • Gestión dinámica de data
  • Privacidad de los estudiantes.
  • Falta actual de las mejores prácticas. (Intervenciones)
  • El rol de TI en análisis académicos.
  • Analítica como herramienta de retención y el potencial de ahorro de dinero.
  • Las ventajas de un sistema propio en comparación con el software comercial.

Fuente: Course signals at Purdue: using learning analytics to increase student success – KE Arnold

El análisis de redes sociales tiene aplicaciones en muchos campos: Marketing, Salud, Computación Urbana, Sociología, Educación, etc.  Compartimos un caso de estudio referente al comportamiento a niños con TEA en la escuela.

Se utilizo SNA para explorar la participación de niños con autismo en las clases típicas. Los participantes fueron 398 niños (196 varones) desde 2 a 5 grado, entre ellos 17 niños (14 varones) con autismo o síndrome de Asperger. Un subgrupo de los compañeros se estableció con la misma N (17) que el grupo de niños con TEA. Para cada niño con TEA, un niño fue seleccionado al azar . Se lo denomino subgrupo de “matched peers”.

Las metricas fueron las siguientes:

  • Nominaciones de amistad.-(“Buddies”, “Top 3”, “Best Friend.)
  • Reciprocidad de amistad. T3R=(#ofreciprocatedTop3nominationsreceived)/ (#ofreciprocatedTop3nominationspossible)
  • Aceptación de compañero.- (Si gusta «pasar el rato» o no, medida directamente desde la nominación de amistad)
  • Social Networks .- Se consulto a cada niño, los niños de su clase con que pasan el rato juntos en grupo.
  • Calidad de Amistad.- Encuesta (1 a 5). Subescalas de cercanía, compañerismo, conflicto, amabilidad, y seguridad
  • Soledad.- Encuesta con escala de soledad Asher medida de 1 a 5 (nunca a siempre). Las puntuaciones posibles varían desde 16 a 80.
  • Social Network Clusters.- Cada vez que dos niños se nombran a un mismo grupo, esto se conoce como una co-ocurrencia. Si es >0,40 (Cairns) se traza una línea entre los dos puntos de la red social.
  • Social Network Centrality (SNC).
    • Combinacion de Individual y cluster centrality. 4 Categorias (Farmer & Rodkin)
    • Individual centrality.- Alto >70%, 30-70% medio y menor 30% baja
    • Cluster centrality.- El promedio de dos miembros de grupo con la puntuación de Individual Centrality mas alta.

sna1

Resultados

  • Social Network Centrality.- Los niños con TEA tienen menor puntaje de Social Network Centrality (SNC) que el subgrupo de “matched peers”.  (F 1,32 = 6.45, P < .05) 35% periferico, 47% secundario y 18% nuclear, vs 6% periferico, 47% secundario y 47% nuclear  No hay casos de soledad en cada grupo.
  • Puntuación de calidad de amigos.-Los niños con TEA tienen menor participación que el subgrupo de “matched peers” Promedio 3,63  vs 4.19
  • Reciprocidad de amistad.- Los niños con TEA, nominan mas amigos (outdegree), que los nominan a ellos (indegree) en (buddies, top 3, best friends).T3R . 34  Vs T3R 0.60, y TBFR = 2/15, vs 7/12
  • Aceptación de compañeros y soledad.- A pesar de que tienen una aceptación mas baja, no se determina mayor soledad en ambos grupos. (Promedio = 30.12, SD = 10.8) y (promedio = 27.92, SD = 12.75)

sna2

Conclusiones

  • La participación de los niños con autismo en las estructuras sociales de las clases regulares revela un panorama mixto.
  • Los niños con autismo eran más propensos a tener conexiones con las niñas.
  • En algunas clases, los niños con autismo se conecta a la estructura social por un solo enlace con un niño popular.
  • En general, el nivel medio de (SNC) fue menor para los niños con autismo que por sus compañeros, eran menos aceptados, y tenían un menor número de amistades recíprocas entre las nominaciones «Top 3» y “Best Friend”. Sin embargo, los niños con autismo reportaron niveles de cercanía, seguridad y conflicto que eran similares al grupo “matched peers”, y no informaron mayores experiencias de soledad.

Fuente : Involvement or Isolation? The Social Networks of Children with Autism in Regular Classrooms (Chamberlain B, Kasari )