Al igual que los mapas topográficos de las cordilleras, los mapas de red también pueden ilustrar los puntos del paisaje que tienen la elevación más alta. Algunas personas ocupan ubicaciones en redes que son análogas a posiciones de importancia estratégica en el paisaje.  Medidas de  «centralidad» de la red, puede identificar a las personas clave en lugares influyentes en la red de discusión, destacando las personas que conducen la conversación. El contenido que estas personas crean es a menudo el más popular y ampliamente repetido en estas redes, lo que refleja el importante papel que estas personas desempeñan en las discusiones de los medios sociales.

Mientras que el mundo físico ha sido mapeado con gran detalle, el paisaje de los medios de comunicación social sigue siendo en su mayoría desconocido. Sin embargo, las herramientas y técnicas para el mapeo de medios sociales están mejorando, permitiendo a más analistas obtener datos de medios sociales, analizarlos y contribuir a la construcción colectiva de un mapa más completo del mundo de los medios sociales. Un mapa más completo y la comprensión del panorama de los medios sociales ayudarán a interpretar las tendencias, los temas y las implicaciones de estas nuevas tecnologías de comunicación.

redes twitter

Multitudes Polarizadas: Las discusiones polarizadas cuentan con dos grupos grandes y densos que tienen poca conexión entre ellos. Los temas que se discuten suelen ser temas políticos altamente divisivos y acalorados. De hecho, por lo general hay poca conversación entre estos grupos a pesar de que se centran en el mismo tema.

Por qué esto es importante: muestra que los usuarios de Twitter se basan en diferentes fuentes de información. Mientras que los usuarios liberales enlazan con muchas fuentes de noticias convencionales, los conservadores se enlazan con un conjunto diferente de sitios web.

Multitudes ajustadas: Estas discusiones se caracterizan por personas altamente interconectadas y con pocos participantes aislados. Muchas conferencias, temas profesionales, grupos de aficionados y otros temas que atraen a las comunidades toman esta forma de multitud estrecha.

Por qué esto importa: Estas estructuras muestran cómo funcionan las comunidades de aprendizaje en red y cómo el intercambio y el apoyo mutuo pueden ser facilitados por los medios de comunicación social.

Clusters de marcas: Cuando se comentan productos o servicios bien conocidos o temas populares como celebridades en Twitter, a menudo hay comentarios de muchos participantes desconectados. Las marcas conocidas y otros temas populares pueden atraer grandes poblaciones fragmentadas de Twitter, pero no unidas entre sí. Cuanto mayor sea la población hablando de una marca, menos probable es que los participantes están conectados entre sí. Los participantes que mencionan las marcas se enfocan en un tema, pero tienden a no conectarse entre sí.

Por qué esto importa: todavía hay instituciones y temas que exigen el interés de la masa. Muchas veces, la charla de Twitter acerca de estas instituciones y sus mensajes no está entre las personas que se conectan entre sí. Más bien, están transmitiendo o transmitiendo el mensaje de la institución o persona y no hay intercambio extra de ideas.

Clústeres Comunitarios: Algunos temas populares pueden desarrollar múltiples grupos más pequeños, que a menudo forman alrededor de unos cuantos centros cada uno con su propio público, influyentes y fuentes de información.  Las noticias mundiales a menudo atraen la cobertura de muchos medios de noticias, cada uno con su propio seguimiento. Esto crea una colección de grupos de tamaño mediano y un buen número de aislamientos.

Por qué esto importa: Algunas fuentes de información crean varias comunidades que fomentan su propio público y comunidad. Estos pueden ilustrar diversos ángulos sobre un tema basado en su relevancia para diferentes públicos, revelando una diversidad de opinión y perspectiva en un tema de medios sociales.

Red de difusión (Broadcast Network):  Los comentarios en Twitter acerca de noticias nuevas, pueden presentar una estructura  en la que muchas personas repiten las noticias prominentes y tweets de  de medios de comunicación tweet.

Por qué esto importa: Todavía hay poderosos programadores de agenda y arrancadores de conversación en el nuevo mundo de los medios sociales. Las empresas y personalidades con seguidores leales todavía pueden tener un gran impacto en la conversación.

Red de apoyo: Las quejas de los clientes de una gran empresa a menudo son manejadas por una cuenta de servicio de Twitter que intenta resolver y gestionar problemas de clientes en torno a sus productos y servicios.  La estructura de red de soporte, responde a muchos usuarios desconectados, creando radios externos.

Por qué esto es importante: A medida que el gobierno, las empresas y los grupos prestan cada vez más servicios y apoyo a través de las redes sociales, las estructuras de la red de apoyo se convierten en un punto de referencia importante para evaluar el desempeño de estas instituciones. Los flujos de asesoramiento y retroalimentación de atención al cliente pueden medirse en términos de eficiencia y alcance utilizando mapas de redes de redes sociales.

Los medios sociales anotados geográficamente son extremadamente valiosos para la recuperación moderna de la información. Sin embargo,  los usuarios de redes sociales rara vez publican información de localización. conforman su red social.

geo

El paper: Geotagging One Hundred Million Twitter Accounts with Total Variation Minimization, de  Ryan Compton, David Jurgens y David Allen, ofrece un nuevo enfoque para solucionar este problema, proponiendo un algoritmo que  infiere la ubicación de un usuario desconocido, a partir de ubicaciones de los amigos con los que se conecta a través  de menciones en tweets,  y que conforman su red social.

gep1

Donde f = (f1; fn) es la locación estimada para cada usuario y  L es el set de usuarios, d es la distancia geodésica y wij, los pesos equivalentes al mínimo número de menciones.

El enfoque busca una red tal que la suma sobre todas las distancias geográficas entre usuarios conectados sea lo más pequeña posible. Esta suma se conoce como la variación total.

Metodología.

Se construyó una red social, G = (V; E), con usuarios como vértices y @menciones entre usuarios como aristas, usando  10% de la muestra de  tweets públicos  de Abril 2012 hasta Abril del  2014., con un peso de  76,9TB de datos, con 25.312.399.718 de @menciones. Se filtraron las menciones reciprocas, para conformar una red de  1.034.362.407 enlaces y 110.893.747 usuarios.  Del  número total de usuarios, el subtotal con localizaciones confirmadas vía GPS o auto-informes es 24.545.425.  Los usuarios con ubicaciones conocidas por GPS constituyen sólo una pequeña porción de las redes de menciones.

En cada iteración, el algoritmo actualiza simultáneamente la ubicación de cada usuario con la mediana l1 multivariante de las ubicaciones de sus amigos. Sólo después de que todas las actualizaciones estén completas comunicamos nuestros resultados a través de la red.

El framework Apache Spark se utilizó para implementar el algoritmo en una arquitectura Big Data. Permite distribuir los datos en la memoria del clúster haciendo uso de conjuntos de datos distribuidos resilientes (denominados RDD) y operando en estos conjuntos de datos, con código Scala.

geo2

La  red y las locaciones de usuarios se almacenan en los RDDs edgeList y userLocations., los cálculos de estos RDD hacen uso de todos los recursos de la CPU del clúster disponibles. El algoritmo se implementa con un simple map y un filtro. La comunicación de las ubicaciones actualizadas a través de la red se logra con una combinación en la lista de vértices, seguida de un groupByKey, que establece una lista de adyacencias para el siguiente mapa.

Análisis de resultados

El algoritmo fue ejecutado en la red bidireccional y los resultados se informan después de 5 iteraciones. El número de usuarios geo codificados después de cada iteración es el siguiente:

geo3

La probabilidad de que un usuario sea geo codificado por el método planteado aumenta cuando existe un incremento un nivel de actividad de la función. Una gran fracción de usuarios  pierde el interés en Twitter después de generar un pequeño número de Tweets, lo que dificulta su localización calculada.

geo5

Para evaluar la cobertura, se examinaron 4.835.561.225 tweets recogidos entre el 2013-01-01 y el 2013-04-07. Estos tweets fueron generados por 117.215.282 usuarios. El método fue capaz de geo codificar el 89% de los tweets. Podría aumentar el porcentaje si todas las ubicaciones reportadas no-vacías no fueran ambiguas.

geo6

Para la precisión se realizo una validación cruzada, tomando un 10% del set de  12.297.785 usuarios que revelaron su posición GPS.  Después de 5 iteraciones del algoritmo, se pudo inferir la locación de 966.515 usuarios, con una Desviación absoluta mediana (median error) de 6,33 kms .

Conclusiones

  • El uso de Apache Spark está justificado por el gran volumen de datos a ser procesados para la conformación de las redes y el cálculo de las distancias geográficas.
  • El hecho que se pueda inferir las locaciones de usuarios, a partir de datos públicos, permite que se  analicen nuevos algoritmos para el cálculo de las distancias geográficas, con mayor precisión y con mejor cobertura.
  • Implementar métodos para eliminar datos de localizaciones (auto-informes) que sean ambiguos, ya que generan errores en el procesamiento de las distancias de usuarios.
  • Se conseguiría mejor cobertura si el método considera que la relación por menciones sea unidireccional.

Para tener presencia en la red, es un hecho que debemos formar comunidades en sitios sociales con el fin de dar a conocer nuestro producto o servicio y con el tiempo conseguir respeto y confianza de los seguidores hacia nuestra imagen.

Para poder conformar comunidades que se afilien a nuestro producto o servicio, podemos seguir varias estrategias.  En primer lugar debemos considerar que existen tres tipos de personas relevantes en las comunidades en medios sociales que debemos identificar.

  • Influencers.– Tienen una importante red de contactos. La comunidad presta atención a su contenido y lo comparte de forma desinteresada.
  • Expertos (informadores).– Poseen información privilegiada y se preocupan y divierten por compartirla.
  • Miembros.- (Follows y Followers que integran una comunidad, en base a un actor o un hashtag).

El establecer relaciones con usuarios influencers y que estos compartan nuestro contenido nos ayuda a posicionarnos en la red y a ganar nuestros propios seguidores. Por ello es muy importante identificarlos y hacerlos parte de nuestras comunidades en los sitios sociales seleccionados.

  • INFLUENCERS

Para poder identificar donde están nuestros potenciales influencers y seguidores, podemos guiarnos por la denominada pirámide Social. La misma se refiere a la clasificación de los sitios sociales de acuerdo al sentido y al valor de la información que manejan sus comunidades  (Make Sense) y a la oportunidad de posicionar nuestra audiencia o mercado en ellas.

Ordenada de menor a mayor, en el sitial mas bajo, se encuentran las redes sociales.  Por ejemplo en Facebook, es común encontrar conversaciones sobre temas particulares, pero las mismas son comentarios u opiniones que no aportan mayor valor agregado.

En los sitios de noticias y sitios para las conexiones motivacionales, existe mayor oportunidad de encontrar comunidades que se identifiquen con nuestros productos o servicios. Por ejemplo si vendemos figuras de acción de luchadores, en los foros de Wrestlemania podemos encontrar potenciales seguidores y porque no clientes.

En las paginas de conexiones de videos y de lideres de pensamiento, también podemos hallar comunidades que sigan ideales, compartan gustos y preferencias especificas.

piramide 2

Las comunidades virtuales son los sitios sociales que ofrecen la información mas relevante. Las opiniones y comentarios son muy respetados y aportan al conocimiento en temas muy específicos.  En estos sitios es donde tenemos mayor oportunidad de encontrar comunidades muy particulares para nuestros propósitos.  Como ejemplos tenemos: Circle of Moms, sitio en el que millones de padres de niños pequeños realizan y hacen preguntas y Stackoverflow, sitio en el que millones de programadores y científicos de ciencias de la computación comparten sus conocimientos y ganan reputación.

 

IBM Bluemix es una plataforma que soporta varios lenguajes de programación y servicios para crear, ejecutar, desplegar y gestionar aplicaciones en la nube. En social media, tiene aplicaciones muy interesantes para el procesamiento y análisis masivo de datos para Twitter.  En el ejemplo, se puede hacer un análisis de datos de los tweets referentes a un tema, extraer informacion y clasificarla por sentimientos negativos y/o positivos.

La utilidad en el mundo del social media es infinita, debido a que podemos desarrollar nuestras propias aplicaciones de búsqueda y hacer inferencia de los sentimientos de un segmento determinado de usuarios (comunidad, especifico, o por ciudad), para predecir sus necesidades ya sea basicas, intelectuales , de seguridad, etc. (podemos referenciar a la famosa piramide de Glasgow). Una vez realizadas las predicciones, el siguiente paso es realizar estrategias de productos y servicios para cubrirlas y campañas para promocionar las mismas a estos segmentos específicos en las redes sociales o en buscadores.

El siguiente es un ejemplo de búsqueda de las palabras «terremoto ecuador» y el calculo de cuantos tweets fueron de sentimiento negativo.

imb

A continuación un enlace de como instalar una version trial, cortesia de Coursera:

https://www.coursera.org/learn/importance-of-listening/supplement/Cwkjc/social-marketing-toolkit-pt-2d-your-free-bluemix-trial

 

 

 

wall2

Podemos obtener una nube de palabras  con el uso de la libreria wordcloud en lenguaje R. Debemos realizar la autenticacion con una cuenta en twitter  con la informacion obtenida en el registro APPS de Twitter (https://apps.twitter.com/) para  configurar las variables: api_key, api_secret, access_token y access_token_secret. Hicimos el ejercicio con las palabras «social» y «media», en idioma ingles, y el resultado se puede apreciar en la grafica.   Palabras asociadas como manager, marketing,  people, like, business, aparecen como las mas relevantes y nos dan una idea de palabras que debemos asociar a futuras publicaciones  en Twitter, debido a que son las populares en búsquedas a «social media».

A continuación el código para realizar la nube de palabras en R:

 

library(tm)
library(igraph)
library(RColorBrewer)
library(httr)
library(twitteR)
library(wordcloud)
oauth_endpoints(«twitter»)
## using my existing twitter api
##
api_key <- ‘ ‘
api_secret <- ‘  ‘
access_token <- ‘ ‘
access_token_secret <- ‘ ‘

setup_twitter_oauth(api_key,api_secret,access_token,access_token_secret)
twitter_search =searchTwitter(«social+media», n=2000, lang=»en»)

searchTwitter(«social+media», n=2000, lang=»en», resultType=»recent»)
searchTwitter(«social+media», n=201100, lang=»en», resultType=»popular»)
##searchTwitter(«social + media», n=500, lang=»en», resultType=»popular»)
##searchTwitter(«social + media», n=25, geocode=’37.781157, -122.39720, 1mi’)
##searchTwitter(«social+media», n=500,lang=»en», until=’2016-04-18′)

# Get text data from the result of Twitter search
text1 <- sapply(twitter_search, function(x) x$getText())
# Remove retweets
text1 = gsub(«(RT|via)((?:\\b\\W*@\\w+)+)», «», text1)
# Remove at people
text1 = gsub(«@\\w+», «», text1)
# Remove punctuation
text1 = gsub(«[[:punct:]]», «», text1)
# Remove numbers
text1 = gsub(«[[:digit:]]», «», text1)
# Remove html links
text1 = gsub(«http\\w+», «», text1)
# remove unnecessary spaces
text1 = gsub(«[ \t]{2,}», «», text1)
text1 = gsub(«^\\s+|\\s+$», «», text1)

# define «tolower error handling» function
tryTolower = function(x)
{
# create missing value
y = NA
# tryCatch error
try_error = tryCatch(tolower(x), error=function(e) e)
# if not an error
if (!inherits(try_error, «error»))
y = tolower(x)
# result
return(y)
}

 

redtwtitter

Dicen que un gráfico vale mas que mil palabras, y esto es mas que cierto para el objetivo de identificar cuales son los principales influenciadores en nuestra red social.

Para el caso de  las redes en Twitter, primero debemos ubicar una aplicación para descargar la información de los usuarios seguidos y seguidores de nuestra cuenta.  Para el caso presentado usamos la herramienta desarrollada en Python, denominada Twetcoll y cuyo código esta disponible en GitHub, aunque también hay otras herramientas pagadas como NodeXL.

Con información obtenida en el registro APPS de Twitter (https://apps.twitter.com/) se puede configurar las variables: consumer_key, consumer_secret, access_token y access_token_secret y el ID de la cuenta  de la referencia. Tras la ejecución que puede demorar algunas horas, dependiendo si el numero de seguidores se cuenta por miles, se obtiene un archivo de extensión GML.

Este archivo puede ser interpretado por Gephi, un aplicativo para la visualización y tratamiento de grafos.  En las opciones para la distribución, seleccionamos un algoritmo de  inteligencia computacional para la clasificación (recomendamos Force Atlas) y las opciones para el calculo de la Modularidad y la centralidad Eigenvector. El resultado en un grafo en el cual cada seguido y seguidores identificados son nodos, los cuales se agrupan por colores en comunidades y por el tamaño podemos deducir su importancia como influenciador,  por el numero de conexiones hacia o desde nuestra cuenta.

En el caso de ejemplo, se identifican claramente 5 grupos (políticos, académicos, amigos, personalidades y medios de comunicación) y los principales influenciadores como: @elcomerciocom @barackobama @allyouneedisec, @pontifex_es entre otros.