Todo lo que necesita saber sobre el procesamiento del lenguaje natural

El procesamiento del lenguaje natural es una rama de la IA que permite a los ordenadores entender, procesar y generar lenguaje igual que las personas. Vamos a conocerlo mejor.

0
20
Custom Text

El procesamiento del lenguaje natural (PNL) es la rama de la inteligencia artificial que se ocupa de entrenar a un ordenador para que comprenda, procese y genere lenguaje. Los motores de búsqueda, los servicios de traducción automática y los asistentes de voz funcionan con esta tecnología.

Aunque el término se refería originalmente a la capacidad de lectura de un sistema, desde entonces se ha convertido en un lenguaje coloquial para toda la lingüística computacional. Las subcategorías incluyen la generación de lenguaje natural (NLG), la capacidad de un ordenador de crear su propia comunicación, y la comprensión del lenguaje natural (NLU), la capacidad de entender la jerga, los errores de pronunciación, los errores ortográficos y otras variantes del lenguaje.

Cómo funciona el procesamiento del lenguaje natural
La PNL funciona a través del aprendizaje automático (ML Machine Learning). Los sistemas de ML almacenan las palabras y la forma en que se unen como cualquier otra forma de datos. Las frases, y a veces libros enteros, se introducen en los motores de ML, donde se procesan utilizando reglas gramaticales, los hábitos lingüísticos de la vida real de las personas, o ambas cosas. A continuación, el ordenador utiliza estos datos para encontrar patrones y extrapolar lo que viene después. Tomemos como ejemplo un software de traducción: en francés, ‘Voy al parque’ se dice Je vais au parc; en este punto el aprendizaje automático predice que la frase ‘Voy al negocio’ también comenzará con Je vais au. Todo lo que el ordenador necesita es la palabra negocio.

Aplicaciones de la PNL
La traducción automática es una aplicación de PNL muy conocida, pero la búsqueda es, con mucho, la aplicación más utilizada. Cada vez que buscas algo en Google o Bing, estás introduciendo datos en el sistema. Al hacer clic en un resultado de búsqueda, el sistema lo interpreta como una confirmación de que los resultados encontrados son correctos y utiliza esa información para mejorar la investigación en el futuro.

Los chatbots funcionan de la misma manera: se integran en Slack, Microsoft Messenger y otros programas de chat en los que leen el idioma que utilizas y luego se activan cuando escribes una frase de activación. Incluso los asistentes de voz como Siri y Alexa se activan cuando escuchan frases como Oye, Siri. Por eso los críticos dicen que estos programas están siempre a la escucha: si no lo estuvieran, nunca sabrían cuándo los necesitas. A menos que actives manualmente una aplicación, los programas de PNL deben ejecutarse en segundo plano, a la espera de escuchar esa frase.

Ejemplos de procesamiento del lenguaje natural
Los datos se presentan en muchas formas, pero la mayor reserva de datos sin explotar es el texto. Las patentes, las especificaciones de los productos, las publicaciones académicas, los estudios de mercado, las noticias, por no hablar de las redes sociales, tienen todos ellos el texto como componente principal, y el volumen de texto crece constantemente. Si aplicamos la tecnología a la voz, el abanico se amplía aún más. He aquí tres ejemplos de cómo las organizaciones están utilizando la tecnología PNL:

Accenture lo utiliza para analizar contratos: la herramienta Accenture Legal Intelligent Contract Exploration (ALICE) ayuda a la organización jurídica de la empresa de servicios globales, compuesta por 2.800 profesionales, a realizar búsquedas de texto en más de millones de contratos, incluidas búsquedas de cláusulas contractuales. ALICE utiliza la «incrustación de palabras» para examinar los documentos contractuales párrafo por párrafo, buscando palabras clave para determinar si el párrafo se refiere a un tipo concreto de cláusula contractual.

Verizon procesa las solicitudes de los clientes: el grupo de Business Service Assurance de Verizon utiliza PNL y aprendizaje profundo para automatizar el procesamiento de los comentarios sobre las solicitudes de los clientes. El grupo recibe más de 100.000 solicitudes al mes. Su Digital Worker para Service Assurance, dotado de inteligencia artificial, lee los tickets de reparación y responde automáticamente a las peticiones más comunes, como informes sobre el estado actual de los tickets o actualizaciones sobre el progreso de las reparaciones. Las cuestiones más complejas se remiten a los ingenieros humanos.

Public Power & Gas (PSE & G) ayuda a los clientes con un asistente virtual: La empresa de servicios públicos de Nueva Jersey utiliza la tecnología de un asistente virtual y otros servicios digitales para que sus clientes puedan gestionar sus cuentas de electricidad o gas mediante comandos de voz. Este sistema se implementó utilizando el kit de habilidades de Alexa proporcionado por Amazon.

Software de procesamiento del lenguaje natural
Ya sea que esté creando un chatbot, un asistente de voz, una aplicación de texto predictivo u otra aplicación con PNL en su núcleo, necesitará herramientas específicas. Según los Centros de Evaluación Tecnológica, los programas más populares son:

Natural Language Toolkit (NLTK). NLTK es un marco de trabajo de código abierto para crear programas en Python que trabajen con datos del lenguaje humano. Fue desarrollado por el Departamento de Informática y Ciencias de la Información de la Universidad de Pensilvania y ofrece interfaces para más de 50 recursos léxicos, un conjunto de bibliotecas de procesamiento de textos, envoltorios para bibliotecas de procesamiento del lenguaje natural y un foro de debate. NLTK se ofrece bajo la licencia Apache 2.0.

SpaCy. SpaCy es una biblioteca de código abierto para el procesamiento avanzado del lenguaje natural diseñada explícitamente para su uso en la producción y no en la investigación. SpaCy fue creado con la ciencia de datos de alto nivel en mente y permite la minería de datos en profundidad. Tiene licencia del MIT.

Gensim. Gensim es una biblioteca de código abierto en Python que soporta la semántica estadística escalable, el análisis de documentos de texto plano para la estructura semántica, y la capacidad de recuperar documentos semánticamente similares. Está diseñado para manejar grandes cantidades de texto sin supervisión humana.

Amazon Comprehend. Este servicio de Amazon no requiere experiencia en aprendizaje automático. Su objetivo es ayudar a las organizaciones a encontrar información de los correos electrónicos, los comentarios de los clientes, las redes sociales, los tickets de asistencia y otros textos. Utiliza el análisis de sentimientos, la extracción de partes del discurso y la tokenización para analizar la intención de las palabras.

IBM Watson Tone Analyzer. Esta solución basada en la nube está diseñada para la escucha social, la integración de chatbot y la supervisión del servicio de atención al cliente. Puede analizar las emociones y el tono de los mensajes de los clientes y supervisar las llamadas de atención al cliente y las conversaciones por chat.

Google Cloud Translation. Esta API utiliza la PNL para examinar un texto de origen y determinar el idioma y, a continuación, utilizar la traducción automática neural para traducir dinámicamente el texto a otro idioma. La API permite a los usuarios integrar la funcionalidad en sus propios programas.

Cursos de procesamiento del lenguaje natural
Hay muchos recursos disponibles para aprender a crear y mantener aplicaciones de PNL, y algunos de ellos son gratuitos.

Introduction to Natural Language Processing in Python de DataCamp. Este curso gratuito, ofrecido en 15 vídeos y 51 ejercicios, cubre los fundamentos de la PNL utilizando Python, incluyendo cómo identificar y separar palabras, cómo extraer argumentos en un texto y cómo construir su propio clasificador de noticias falsas.

Introduction to Natural Language Processing (NLP) di Udemy. Este curso introductorio proporciona experiencia práctica en el trabajo y el análisis de textos utilizando Python y Natural Language Toolkit. Consta de tres horas de vídeo a la carta, tres artículos y 16 recursos descargables. El curso cuesta 19,99 dólares e incluye un certificado de finalización.

Hands On Natural Language Processing (NLP) using Python de Udemy. Este curso está dirigido a personas con experiencia en programación básica en cualquier lenguaje, comprensión de los conceptos de programación orientada a objetos, conocimientos de matemáticas básicos a intermedios y conocimientos de operaciones con matrices. Está completamente basado en un proyecto y consiste en crear un clasificador de texto para predecir el sentimiento de los tweets en tiempo real y un resumen de artículos que pueda recuperar artículos. El curso consta de 10,5 horas de vídeo a la carta y ocho artículos y cuesta 19,99 dólares.

Natural Language Processing (NLP) de edX. Este curso de seis semanas, ofrecido por Microsoft a través de edX, ofrece una visión general del procesamiento del lenguaje natural y del uso de los métodos clásicos de aprendizaje automático. Abarca la traducción automática estadística, los modelos de similitud semántica profunda (DSSM) y sus aplicaciones. Se trata de un curso de nivel avanzado y quienes lo completen podrán obtener un certificado por 99 dólares.

Natural Language Processing de Coursera. Este curso, que forma parte de la especialización avanzada de Coursera en Aprendizaje Automático, abarca tareas de procesamiento del lenguaje natural, como el análisis de sentimientos, el resumen, la supervisión del estado de los diálogos, etc. Se trata de un curso de nivel avanzado que requiere unas cinco semanas de cuatro a cinco horas de estudio por semana para completarlo.

Natural Language Processing in TensorFlow de Coursera. Este curso forma parte de la especialización TensorFlow en la práctica de Coursera y cubre el uso de TensorFlow para crear sistemas de procesamiento del lenguaje natural que puedan procesar texto y frases de entrada en una red neuronal. Coursera especifica que se trata de un curso de nivel intermedio y estima que se necesitarán cuatro semanas de estudio de cuatro a cinco horas semanales para completarlo.

Redacción CambioDigital OnLine – CWI

Artículo anteriorBT amplía sus servicios de red gestionada
Artículo siguiente«Solo queríamos dinero y no causar problemas a la sociedad»