La inteligencia artificial permite detectar reseñas falsas en internet

Científicos españoles han desarrollado un sistema capaz de identificar de manera automática revisores falsos que muestran opiniones en internet. El nuevo sistema emplea técnicas de inteligencia artificial, combinando procesamiento de lenguaje natural y aprendizaje automático, para poder detectar este tipo de comportamiento. El sistema ha sido probado con datos reales en la plataforma Yelp, que actualmente alberga más de 180 millones de reseñas, y ha conseguido una precisión de más del 80 %.

En la actualidad, un gran número de usuarios consulta internet para decidir qué productos consumir, dónde irse de vacaciones, y hasta dónde se pueden encontrar los productos con la mejor relación calidad-precio. La confianza que los usuarios depositan en estas plataformas es vital tanto para ellas como para los mismos usuarios. Esta confianza se fundamenta en la asunción de que las reseñas que se encuentran en estas plataformas sean honestas y, además, hayan sido redactadas por verdaderos usuarios. Sin embargo, existe un fenómeno creciente en estas plataformas conocido como fake reviews (reseñas falsas). Se trata, básicamente, de empresas que se anuncian en estas plataformas que contratan fake reviewers que escriben reseñas falsas que normalmente resultan beneficiosas para la empresa en cuestión. También existe el fenómeno contrario, en el que las reseñas resultan perjudiciales para empresas competidoras. Los individuos que redactan estas reseñas falsas no pueden ser detectados por el texto que generan Ante este problema, investigadores del Grupo de Sistemas Inteligentes de la Universidad Politécnica de Madrid (UPM) han desarrollado recientemente un sistema capaz de detectar de manera automática a estos revisores falsos. Gracias al empleo de técnicas de inteligencia artificial que combinan procesamiento de lenguaje natural y aprendizaje automático, el sistema aprende a detectar este tipo de comportamiento. Para ello, estudia los casos existentes de reseñas falsas, detecta qué características de los mismos resultan relevantes para el problema que se estudia y cuáles se pueden ignorar. Para probar la efectividad del sistema, los investigadores lo han probado con datos reales de la plataforma Yelp, que actualmente cuenta con más de 180 millones de reseñas. Así, los investigadores se dieron cuenta de que los individuos que redactan estas reseñas falsas no pueden ser detectados por el texto que generan. Para confirmar esta observación emplearon tecnologías de última generación en el campo del procesado del lenguaje natural basados en aprendizaje profundo, como los word embeddings, que son capaces de representar palabras mediante vectores numéricos. Estas representaciones no pueden ser interpretadas directamente por humanos, pero sistemas especializados pueden extraer una gran cantidad de información con esta herramienta. Dado que el texto de las reseñas no puede ser usado para detectar cuáles son falsas, los investigadores recurrieron a un campo distinto de investigación para resolver el problema: la ciencia de redes. Así, extrajeron distintos tipos de información de los usuarios de la plataforma, como datos acerca de la actividad de la cuenta, las interacciones con otros usuarios de esa misma plataforma y la actividad de escritura de reseñas. Uniendo toda esta información el sistema de aprendizaje ha sido capaz de detectar a los usuarios falsos con un 82 % de precisión. En opinión del investigador Óscar Araque, “este tipo de sistemas son de gran interés para plataformas de reseñas como Yelp o Google Maps, pero también pueden ser usadas por empresas anunciantes para detectar si empresas competidoras están empleando reseñas falsas”.

En la actualidad, un gran número de usuarios consulta internet para decidir qué productos consumir, dónde irse de vacaciones, y hasta dónde se pueden encontrar los productos con la mejor relación calidad-precio. La confianza que los usuarios depositan en estas plataformas es vital tanto para ellas como para los mismos usuarios. Esta confianza se fundamenta en la asunción de que las reseñas que se encuentran en estas plataformas sean honestas y, además, hayan sido redactadas por verdaderos usuarios.

Sin embargo, existe un fenómeno creciente en estas plataformas conocido como fake reviews (reseñas falsas). Se trata, básicamente, de empresas que se anuncian en estas plataformas que contratan fake reviewers que escriben reseñas falsas que normalmente resultan beneficiosas para la empresa en cuestión. También existe el fenómeno contrario, en el que las reseñas resultan perjudiciales para empresas competidoras.

Los individuos que redactan estas reseñas falsas no pueden ser detectados por el texto que generan

Ante este problema, investigadores del Grupo de Sistemas Inteligentes de la Universidad Politécnica de Madrid (UPM) han desarrollado recientemente un sistema capaz de detectar de manera automática a estos revisores falsos. Gracias al empleo de técnicas de inteligencia artificial que combinan procesamiento de lenguaje natural y aprendizaje automático, el sistema aprende a detectar este tipo de comportamiento.

Para ello, estudia los casos existentes de reseñas falsas, detecta qué características de los mismos resultan relevantes para el problema que se estudia y cuáles se pueden ignorar. Para probar la efectividad del sistema, los investigadores lo han probado con datos reales de la plataforma Yelp, que actualmente cuenta con más de 180 millones de reseñas.

Así, los investigadores se dieron cuenta de que los individuos que redactan estas reseñas falsas no pueden ser detectados por el texto que generan. Para confirmar esta observación emplearon tecnologías de última generación en el campo del procesado del lenguaje natural basados en aprendizaje profundo, como los word embeddings, que son capaces de representar palabras mediante vectores numéricos. Estas representaciones no pueden ser interpretadas directamente por humanos, pero sistemas especializados pueden extraer una gran cantidad de información con esta herramienta.

Dado que el texto de las reseñas no puede ser usado para detectar cuáles son falsas, los investigadores recurrieron a un campo distinto de investigación para resolver el problema: la ciencia de redes. Así, extrajeron distintos tipos de información de los usuarios de la plataforma, como datos acerca de la actividad de la cuenta, las interacciones con otros usuarios de esa misma plataforma y la actividad de escritura de reseñas. Uniendo toda esta información el sistema de aprendizaje ha sido capaz de detectar a los usuarios falsos con un 82 % de precisión.

En opinión del investigador Óscar Araque, “este tipo de sistemas son de gran interés para plataformas de reseñas como Yelp o Google Maps, pero también pueden ser usadas por empresas anunciantes para detectar si empresas competidoras están empleando reseñas falsas”.