Warning: Parameter 1 to wp_default_styles() expected to be a reference, value given in /homepages/11/d622453770/htdocs/clickandbuilds/SocialTechMonkeys/wp-includes/plugin.php on line 601

Warning: Parameter 1 to wp_default_scripts() expected to be a reference, value given in /homepages/11/d622453770/htdocs/clickandbuilds/SocialTechMonkeys/wp-includes/plugin.php on line 601

Categoría: Algoritmos

Stanley Milgran, fue un psicólogo social estadounidense, que creo el concepto de: «Los seis grados de concepto de separación», basándose en el  «experimento del pequeño mundo» en el cual rastreó cadenas de conocidos en los Estados Unidos. En el experimento, Milgram envió varios paquetes a 160 personas aleatorias que vivían en Omaha, Nebraska, pidiéndoles que remitieran el paquete a un amigo o conocido que pensaban que acercaría el paquete a un individuo final, un corredor de bolsa de Boston, Massachusetts.

Cada «iniciador» recibió instrucciones de enviar una carpeta a través de la Oficina de Correos de los Estados Unidos a un destinatario, pero con algunas reglas. Los iniciadores sólo podían enviar el paquete a alguien que realmente conocieran personalmente y que coincidiera con el primer nombre. Al hacerlo, cada participante ordenó a su destinatario que enviara por correo el paquete a una de las personas conocidas de este último con las mismas instrucciones, con la esperanza de que su conocido pudiera por casualidad, conocer al destinatario objetivo.

Al final del experimento,  la entrega de cada paquete solamente llevó, como promedio, entre cinco y siete intermediarios, lo que hizo famosa la frase «seis grados de separación», en el argot popular, dando incluso el nombre a una película.

Facebook, en el 2008,  realizo el calculo (page rank) de las conexiones promedio entre todos sus usuarios y el resultado fue 4,74, mejorando aun el promedio de 6 establecido por Milgran.

Ahora si por nuestra cuenta queremos comprobar las conexiones entre personas, les recomiendo la pagina del Oraculo de Bacon:  https://oracleofbacon.org/movielinks.php

Sabemos quien es Kevin Bacon (el actor de Footloose, el Hombre Invisible y muchas otras). La pagina lleva su nombre porque es el actor con mayor numero de conexiones entre los demás actores (compañeros de trabajo), es decir tiene la mayor centralidad de grado.

sm2

La pagina tiene casi 20 años, y toma los datos del IMDB, la base de datos de las películas, pero ha mejorado en dos aspectos. El primero es que los criterios están abiertos para consultar el numero de conexiones entres dos actores distintos a Kevin Bacon, y el segundo es que la base del IMDB, es ahora global y no solo de películas de Hollywoood.

Hice la prueba entre dos artistas ecuatorianos: Julio Jaramillo y Maria Elisa Camargo  (recalco que ambos son ecuatorianos), y el numero de conexiones fue de 3. Esto a pesar de que Julio Jaramillo, lleva 40 años fallecido.

oraculo

La rama que estudia las conexiones entre individuos es el análisis de redes sociales,  y se utiliza activamente en sociología, antropología, ciencia política, gestión organizacional y medios de comunicación.  En muchos casos el análisis de redes sociales se fundamenta en el estudio de los agentes en la estructura de la red, para ello se hace un análisis de las medidas de centralidad de los actores de la propia red social con el objetivo de ver las relaciones de poder, de protagonismo, confianza y la detección de comunidades y grupos.

Los conceptos de analisis de redes sociales, son aplicados a través de algoritmos computacionales,  y nos pueden permitir descubrir como están conformadas redes sociales tales como: Facebook, Twitter, Likendin, Youtube, Google plus y demás, ya sea propias,  de una marca, negocio o celebridad. Esto con el fin de detectar los usuarios mas influyentes de esa red, las comunidades que se forman alrededor de un tema o tópico de interés y como se propagan los mensajes en las distintas comunidades conformadas en las redes sociales, entre otros puntos.

 

Los medios sociales anotados geográficamente son extremadamente valiosos para la recuperación moderna de la información. Sin embargo,  los usuarios de redes sociales rara vez publican información de localización. conforman su red social.

geo

El paper: Geotagging One Hundred Million Twitter Accounts with Total Variation Minimization, de  Ryan Compton, David Jurgens y David Allen, ofrece un nuevo enfoque para solucionar este problema, proponiendo un algoritmo que  infiere la ubicación de un usuario desconocido, a partir de ubicaciones de los amigos con los que se conecta a través  de menciones en tweets,  y que conforman su red social.

gep1

Donde f = (f1; fn) es la locación estimada para cada usuario y  L es el set de usuarios, d es la distancia geodésica y wij, los pesos equivalentes al mínimo número de menciones.

El enfoque busca una red tal que la suma sobre todas las distancias geográficas entre usuarios conectados sea lo más pequeña posible. Esta suma se conoce como la variación total.

Metodología.

Se construyó una red social, G = (V; E), con usuarios como vértices y @menciones entre usuarios como aristas, usando  10% de la muestra de  tweets públicos  de Abril 2012 hasta Abril del  2014., con un peso de  76,9TB de datos, con 25.312.399.718 de @menciones. Se filtraron las menciones reciprocas, para conformar una red de  1.034.362.407 enlaces y 110.893.747 usuarios.  Del  número total de usuarios, el subtotal con localizaciones confirmadas vía GPS o auto-informes es 24.545.425.  Los usuarios con ubicaciones conocidas por GPS constituyen sólo una pequeña porción de las redes de menciones.

En cada iteración, el algoritmo actualiza simultáneamente la ubicación de cada usuario con la mediana l1 multivariante de las ubicaciones de sus amigos. Sólo después de que todas las actualizaciones estén completas comunicamos nuestros resultados a través de la red.

El framework Apache Spark se utilizó para implementar el algoritmo en una arquitectura Big Data. Permite distribuir los datos en la memoria del clúster haciendo uso de conjuntos de datos distribuidos resilientes (denominados RDD) y operando en estos conjuntos de datos, con código Scala.

geo2

La  red y las locaciones de usuarios se almacenan en los RDDs edgeList y userLocations., los cálculos de estos RDD hacen uso de todos los recursos de la CPU del clúster disponibles. El algoritmo se implementa con un simple map y un filtro. La comunicación de las ubicaciones actualizadas a través de la red se logra con una combinación en la lista de vértices, seguida de un groupByKey, que establece una lista de adyacencias para el siguiente mapa.

Análisis de resultados

El algoritmo fue ejecutado en la red bidireccional y los resultados se informan después de 5 iteraciones. El número de usuarios geo codificados después de cada iteración es el siguiente:

geo3

La probabilidad de que un usuario sea geo codificado por el método planteado aumenta cuando existe un incremento un nivel de actividad de la función. Una gran fracción de usuarios  pierde el interés en Twitter después de generar un pequeño número de Tweets, lo que dificulta su localización calculada.

geo5

Para evaluar la cobertura, se examinaron 4.835.561.225 tweets recogidos entre el 2013-01-01 y el 2013-04-07. Estos tweets fueron generados por 117.215.282 usuarios. El método fue capaz de geo codificar el 89% de los tweets. Podría aumentar el porcentaje si todas las ubicaciones reportadas no-vacías no fueran ambiguas.

geo6

Para la precisión se realizo una validación cruzada, tomando un 10% del set de  12.297.785 usuarios que revelaron su posición GPS.  Después de 5 iteraciones del algoritmo, se pudo inferir la locación de 966.515 usuarios, con una Desviación absoluta mediana (median error) de 6,33 kms .

Conclusiones

  • El uso de Apache Spark está justificado por el gran volumen de datos a ser procesados para la conformación de las redes y el cálculo de las distancias geográficas.
  • El hecho que se pueda inferir las locaciones de usuarios, a partir de datos públicos, permite que se  analicen nuevos algoritmos para el cálculo de las distancias geográficas, con mayor precisión y con mejor cobertura.
  • Implementar métodos para eliminar datos de localizaciones (auto-informes) que sean ambiguos, ya que generan errores en el procesamiento de las distancias de usuarios.
  • Se conseguiría mejor cobertura si el método considera que la relación por menciones sea unidireccional.

Deep Learning es una  técnica de aprendizaje artificial que ya ha dotado a los ordenadores de una capacidad para reconocer la voz, clasificar imágenes, videos y ha realizado impresionantes avances en procesamiento de lenguaje natural.

Deep Learning implica la aplicación repetida de cálculos a los datos, que pueden ser imágenes o sonido, para reconocer atributos clave y similitudes. Aunque existen varias maneras de implementar Deep Learning, una de las más comunes es utilizar redes de neuronas. Una red de neuronas es una herramienta matemática que modela, de forma muy simplificada, el funcionamiento de las neuronas en el cerebro. Otra forma de verlas, es como un procesador de información, que recibe información entrante, codificada como números, hace un poco de magia, y produce como resultado información saliente, codificada como otros números.

Los principios matemáticos que forman la base del aprendizaje profundo son relativamente sencillos, pero cuando se combinan con enormes cantidades de datos de aprendizaje y sistemas informáticos que ejecutan múltiples operaciones en paralelo, la técnica ha dado paso a grandes avances en los últimos años, sobre todo en los campos de reconocimiento de voz e imágenes.

Por ejemplo, Google utiliza aprendizaje profundo para el reconocimiento de voz en móviles Android, mientras que Facebook utiliza la tecnología para identificar amigos en las fotos de sus usuarios.   Andrew Ng, profesor adjunto de la Universidad de Stanford (USA), cocreador de Coursera (mis agradecimientos) y  director de Tecnología de la empresa china Baidu, Andrew Ng, dijo en la conferencia que el aprendizaje profundo ya ha demostrado su utilidad. «Una de las cosas que Baidu hizo muy bien desde el principio fue crear una plataforma interna de aprendizaje profundo», dijo Ng. «Un ingeniero de nuestro grupo de sistemas decidió utilizarlo para identificar con un día de antelación cuándo va a fallar el disco duro. Utilizamos aprendizaje profundo para detectar intrusiones. Ahora mucha gente está aprendiendo acerca del aprendizaje profundo y lo intentan aplicar a muchos problemas distintos».

Para campañas de social media, deep learning puede reconocer la identificación de usuarios así como sus gustos y preferencias, extraídas de imágenes y/o videos.  Por ejemplo de una foto de un grupo de amigos en una fiesta, se puede identificar a cada uno de ellos, reconociéndolos por sus similitudes con fotos de perfiles en redes sociales. Incluso se puede extraer características de productos asociados a la imagen, como por ejemplo bebidas, marcas de ropa, sitios de interés, para con esa información realizar campanas personalizadas de contenido.

Les dejo el video de Andrew Ng y los avances en Deep Learning.  El lo cataloga como el estado del arte en aprendizaje no supervizado .

Course Signals (CS) es un sistema de analítica del aprendizaje,  que permite el éxito del estudiante en la facultad para proporcionar retroalimentación significativa al estudiante basado en modelos predictivos. La premisa detrás de CS es bastante simple: Utiliza la gran cantidad de datos que se encuentran en una institución educativa, incluyendo los datos recogidos por las herramientas de instrucción, para determinar en tiempo real que los estudiantes podrían estar en riesgo, parcialmente indicado por su esfuerzo dentro de un curso.

Signals tiene cuatro componentes

  • El rendimiento, medido por el porcentaje de cantidad de puntos en curso hasta la fecha
  • El esfuerzo, tal como se define por la interacción BlackBoard LMS de Purdue, en comparación con los estudiantes compañeros;
  • El historial académico previo, incluyendo la preparación académica, GPA de escuela secundaria, y resultados de las pruebas estandarizadas (Extraído con tecnicas de Datamining y Bidgata)
  • Las características del estudiante, tales como la residencia, edad o créditos intentados.

El ayudar a un estudiante a integrarse académicamente a la institución es la clave de Signals, que  ayuda a promover la integración de varias maneras.

  • Permite a los miembros de la facultad enviar correos electrónicos personalizados a los estudiantes que contienen información acerca de su rendimiento actual en un curso dado.
  • Los miembros de la facultad, pueden animar a los estudiantes a visitar usar varios recursos de ayuda o realizar actividades que contribuyen a que el estudiante se integre plenamente con la institución.
  • Emplea la analítica del alumno para permitir la integración de datos en tiempo real del rendimiento de los estudiantes, la interacción con el LMS, la información demográfica y el historial académico.

Los resultados del algoritmo SSA, se muestra una señal en rojo, amarillo o verde en la página principal del curso de un estudiante. Una luz roja indica un alta probabilidad de no tener éxito; luz amarilla indica que un potencial problema esta sucediendo y una señal verde demuestra un alta probabilidad de tener éxito en el curso. El algoritmo genera un indicador riesgo-curso específico para cada estudiante basado en el rendimiento, el comportamiento basado en pares, y datos de preparación educativa. Los instructores pueden intervenir a tiempo y brindar a los estudiantes una oportunidad realista de adaptar su comportamiento.

dash

Resultados

El otoño del 2007, 2008 y 2009, se compararon las cohortes de principiantes con una lista de todos los participantes de CS en la Universidad Purdue,  para determinar que estudiantes usan CS o no en sus cursos. Cada semestre, los estudiantes en cada cohorte, presentan retención o una conducta de salida.  La tasa de retención se calcula sumando los estudiantes que todavía están inscritos y que se han graduado y dividiendo esa suma por el número total de estudiantes por primera vez a tiempo completo en el cohorte original.

Los alumnos que comenzaron en Purdue 2007 (Tabla 1), 2008 (Tabla 2), y 2009 (Tabla 3) y participado en al menos un curso con CS,  son retenidos en tasas significativamente más altas que sus compañeros que no tenían clases con CS durante el mismo semestre. Además, los estudiantes que tienen dos o más cursos con CS se mantienen constantemente a tasas más altas que las que tenían sólo uno o ningún curso con CS.

tabla2

Futuros retos para Course Signals

  • La adquisición de datos de diversas fuentes (Social Networks Analysis, Video, etc.)
  • Gestión dinámica de data
  • Privacidad de los estudiantes.
  • Falta actual de las mejores prácticas. (Intervenciones)
  • El rol de TI en análisis académicos.
  • Analítica como herramienta de retención y el potencial de ahorro de dinero.
  • Las ventajas de un sistema propio en comparación con el software comercial.

Fuente: Course signals at Purdue: using learning analytics to increase student success – KE Arnold

Social Mention (socialmention.com) una plataforma de búsqueda de medios de comunicación social que consolida contenido generado por los usuarios en todo el internet, en un único flujo de información. Social Mention puede rastrar la influencia de un tema determinado en más de 80 medios sociales entre ellos: Twitter, Facebook, LinkedIn, YouTube, Google, Digg, etc.

Social Mention, ademas proporciona el servicio de alertas diarias de medios sociales y mide la influencia utilizando 4 parámetros, apoyado en algoritmos de procesamiento de lenguaje natural:

  • Fuerza (Strength). Es la probabilidad de que una marca se está discutiendo en los medios sociales. Se lo calcula de forma muy simple: las frases mencionadas en las últimas 24 horas se divididas por el total de posibles menciones.
  • Sentimiento (Sentiment). Es el promedio de menciones positivas y negativas.
  • Pasión (Passion). Es una medida de la probabilidad de que las personas que hablan de una marca, lo hagan otra vez. Por ejemplo, si existiera un pequeño grupo de apasionados defensores  que hablan de productos o marca específicos todo el tiempo, se calculara una puntuación más alta en pasión. Por el contrario, si cada mención ha sido escrita por un autor diferente, se obtendrá una puntuación más baja.
  • Alcance (Reach).  Es una medida del rango de influencia. Es el número de autores únicos que hacen referencia a una marca, dividido por el número total de menciones.

Por el momento nos enfocaremos en el análisis de sentimientos, sin desmerecer a las otras métricas. El sentimiento es bastante sencillo de entender. Puede entenderse como una emoción, una actitud u opinión. En las redes sociales, el sentimiento de una publicación puede apreciarse en el tono o la emoción transmitida por una mención de la marca.

¿Para que nos puede servir este análisis de sentimientos con la herramienta Social Mention?. Con solo un vistazo nos aseguramos que nuestra marca  está respondiendo a los clientes insatisfechos lo más rápido posible, al consultar las menciones positivas, negativas y neutrales. También podemos recopilar datos sobre las tendencias de sensibilidad y patrones y utilizarlo para obtener una mejor imagen de la reputación de su marca.

El análisis de sentimientos nos permite estar a la expectativa de una posible crisis. Los profesionales de relaciones públicas pueden tomar acciones ante una situación difícil detectada,  antes de que se convierta en un problema mayor.

Por ultimo nos permite llevar a cabo una investigación competitiva. Mediante la creación de alertas para vigilar a competidores, nos permite medir el sentimiento para ellos, en la misma forma que se lo puede medir para una marca propia. El análisis de opiniones y sentimientos puede medir e informar sobre cómo se habla sobre los competidores en las redes sociales.

socialmention

Figura: Análisis en Social Mention, del hashtag: «Social Media»

 

Lexalytics  Inc. fue formada en el 2003 proporciona  el servicio de análisis de intenciones y sentimientos a partir de texto,  hacia empresas que utilizan SaaS (Modelo de distribución de software donde el soporte lógico y los datos se acceden vía Internet desde un cliente) y la tecnología basada en la nube.  El motor detrás Lexalytic:  Salience 6, fue construido como un motor de análisis de texto  varios idiomas.

La entrada para realizar el analisis de texto, se denomina documento y su origen puede ser cualquier sitio de social media, como blogs, foros, redes sociales (Twitter, Linkedin, Facebook), sitios de videos, comunidades, sitios de noticias, entre otros.  La herramientas y código analizan el texto y localizan las porciones del documentos mas significantes, las que se denominas Snippets.

El motor de análisis de texto, procesa 3 billones de documentos diarios, usando para ello infraestructura para Big Data.

 

lexa3

El motor de análisis de texto, que se basa en algoritmos de procesamiento de lenguaje natural, puede identificar entidades, temas, tópicos, categorías, intenciones y sentimientos desde el documento de entrada.  A partir de esta información, se  puede identificar los actores de importancia, el peso positivo o negativo de los sentimientos y la clasificación temática del documento en todo su contexto. El documento puede ser una imagen o un video, que puede ser tratado mediante algoritmos de procesamiento de imágenes, para  identificar sujetos, edades, razas, estados de animo, lugares e incluso el uso de determinados objetos y marcas.

Se realizo una prueba desde el sitio https://www.lexalytics.com/demo con una noticia sobre el terremoto en Ecuador, documento que esta en el siguiente enlace: http://www.eluniverso.com/noticias/2016/04/18/nota/5532609/fiscalia-entrega-lista-cadaveres-entregados-86-manta-22-canoa-10

lexa2

El resultado después del análisis, fue que el documento en su contexto general es negativo, e identifico las entidades, categorías y principales temas.

lexa1

lexa4

El servicio de Lexalytics, tiene mucho potencial, por ejemplo realizar estrategias de marketing digital, focalizadas a satisfacer necesidades emocionales de sujetos (entidades) que han expresado sus sentimientos (positiva o negativa) al tratar un tema especifico en un documento (una publicación de Facebook, un Tweet, o incluso un video).

IBM Bluemix, es una herramienta poderosa para crear aplicaciones inteligentes que realizan análisis de contenido en el texto y las imágenes. El uso de algoritmos  NLP, de reconocimiento de imágenes y aprendizaje automático permite a los interesados,  extraer metadatos semánticos a partir del contenido, tales como información sobre personas, lugares, empresas, temas, hechos, relaciones, autores e idiomas.

Continuando nuestro ejemplo referente al hashtag: «Terremoto Ecuador».  Usamos el servicio de dashDB para extraer datos de Twitter para procesarlos.  Este servicio permite bajar hasta 20 GB de información y permite aplicar a los datos, un algoritmo de procesamiento de lenguaje natural para determinar si en el cuerpo del mensaje hay texto que denote sentimientos positivos o negativos.

Esta información con respecto a la polaridad de los sentimientos, puede servir por ejemplo para filtrar por regiones, el estado de animo, emociones y necesidades de una determinada población y anticiparse a gestionar la ayuda requerida. En el sentido comercial puede servir para conocer el efecto positivo o negativo en una campaña en redes sociales por áreas o zonas, con el fin de tomar correctivos.

En el ejemplo aplicamos el siguiente Query para extraer los tweets con sentimientos positivos, usuarios y locaciones.

SELECT A.MESSAGE_BODY, B.SENTIMENT_TERM, C.USER_SCREEN_NAME, C.USER_NAME

FROM
DASH101145.TERR_TWEETS A, DASH101145.TERR_SENTIMENTS B, DASH101145.TERR_USERS C WHERE
A.MESSAGE_ID = B.MESSAGE_ID AND
B.SENTIMENT_POLARITY = ‘POSITIVE’ AND
A.MESSAGE_ID = C.MESSAGE_ID

Adicional presenta un Framework para desarrollar en lenguaje R y realizar gráficos y estadísticas.  Pueden realizarse aplicaciones mas elaboradas con opciones de búsqueda por varios filtros, selección de lenguaje, etc.

Configuración de búsqueda de palabras o hashtag en Twitter para extracción y procesamiento de datos

Query con los resultados de las tablas extraídas y procesadas.

wall2

Podemos obtener una nube de palabras  con el uso de la libreria wordcloud en lenguaje R. Debemos realizar la autenticacion con una cuenta en twitter  con la informacion obtenida en el registro APPS de Twitter (https://apps.twitter.com/) para  configurar las variables: api_key, api_secret, access_token y access_token_secret. Hicimos el ejercicio con las palabras «social» y «media», en idioma ingles, y el resultado se puede apreciar en la grafica.   Palabras asociadas como manager, marketing,  people, like, business, aparecen como las mas relevantes y nos dan una idea de palabras que debemos asociar a futuras publicaciones  en Twitter, debido a que son las populares en búsquedas a «social media».

A continuación el código para realizar la nube de palabras en R:

 

library(tm)
library(igraph)
library(RColorBrewer)
library(httr)
library(twitteR)
library(wordcloud)
oauth_endpoints(«twitter»)
## using my existing twitter api
##
api_key <- ‘ ‘
api_secret <- ‘  ‘
access_token <- ‘ ‘
access_token_secret <- ‘ ‘

setup_twitter_oauth(api_key,api_secret,access_token,access_token_secret)
twitter_search =searchTwitter(«social+media», n=2000, lang=»en»)

searchTwitter(«social+media», n=2000, lang=»en», resultType=»recent»)
searchTwitter(«social+media», n=201100, lang=»en», resultType=»popular»)
##searchTwitter(«social + media», n=500, lang=»en», resultType=»popular»)
##searchTwitter(«social + media», n=25, geocode=’37.781157, -122.39720, 1mi’)
##searchTwitter(«social+media», n=500,lang=»en», until=’2016-04-18′)

# Get text data from the result of Twitter search
text1 <- sapply(twitter_search, function(x) x$getText())
# Remove retweets
text1 = gsub(«(RT|via)((?:\\b\\W*@\\w+)+)», «», text1)
# Remove at people
text1 = gsub(«@\\w+», «», text1)
# Remove punctuation
text1 = gsub(«[[:punct:]]», «», text1)
# Remove numbers
text1 = gsub(«[[:digit:]]», «», text1)
# Remove html links
text1 = gsub(«http\\w+», «», text1)
# remove unnecessary spaces
text1 = gsub(«[ \t]{2,}», «», text1)
text1 = gsub(«^\\s+|\\s+$», «», text1)

# define «tolower error handling» function
tryTolower = function(x)
{
# create missing value
y = NA
# tryCatch error
try_error = tryCatch(tolower(x), error=function(e) e)
# if not an error
if (!inherits(try_error, «error»))
y = tolower(x)
# result
return(y)
}

 

redtwtitter

Dicen que un gráfico vale mas que mil palabras, y esto es mas que cierto para el objetivo de identificar cuales son los principales influenciadores en nuestra red social.

Para el caso de  las redes en Twitter, primero debemos ubicar una aplicación para descargar la información de los usuarios seguidos y seguidores de nuestra cuenta.  Para el caso presentado usamos la herramienta desarrollada en Python, denominada Twetcoll y cuyo código esta disponible en GitHub, aunque también hay otras herramientas pagadas como NodeXL.

Con información obtenida en el registro APPS de Twitter (https://apps.twitter.com/) se puede configurar las variables: consumer_key, consumer_secret, access_token y access_token_secret y el ID de la cuenta  de la referencia. Tras la ejecución que puede demorar algunas horas, dependiendo si el numero de seguidores se cuenta por miles, se obtiene un archivo de extensión GML.

Este archivo puede ser interpretado por Gephi, un aplicativo para la visualización y tratamiento de grafos.  En las opciones para la distribución, seleccionamos un algoritmo de  inteligencia computacional para la clasificación (recomendamos Force Atlas) y las opciones para el calculo de la Modularidad y la centralidad Eigenvector. El resultado en un grafo en el cual cada seguido y seguidores identificados son nodos, los cuales se agrupan por colores en comunidades y por el tamaño podemos deducir su importancia como influenciador,  por el numero de conexiones hacia o desde nuestra cuenta.

En el caso de ejemplo, se identifican claramente 5 grupos (políticos, académicos, amigos, personalidades y medios de comunicación) y los principales influenciadores como: @elcomerciocom @barackobama @allyouneedisec, @pontifex_es entre otros.