Descripción


Introducción

El procesamiento del Lenguaje Natural (PLN) es una parte esencial de la Inteligencia Artificial que investiga y formula mecanismos computacionalmente efectivos que faciliten la interacción hombre/máquina y permitan una comunicación mucho más fluida y menos rígida que los lenguajes formales. Los sistemas que incluyen técnicas de PLN intentan simular el comportamiento lingüístico humano; para ello deben tomar conciencia tanto de las estructuras propias del lenguaje, como del conocimiento general acerca del universo del discurso. En este sentido, el "Taller Internacional de Lingüística Computacional, hacia el análisis profundo de documentos digitales" busca proporcionar a los asistentes una introducción al Procesamiento del Lenguaje Natural, Aprendizaje Automático, Aprendizaje Profundo (Deep Learning), haciendo énfasis en las bases teóricas necesarias para atacar problemas relacionados con el análisis automático de documentos digitales.

El presente taller es continuación directa de los esfuerzos realizados en años previos por la Red Temática en tecnologías del Lenguaje (RedTTL), y la Asociación Mexicana de Procesamiento de Lenguaje Natural (AMPLN), con el objetivo principal de dar a conocer a la comunidad los temás más relevantes y recientes al rededor de las Tecnologías del Lenguaje Humano. 

 

Audiencia

El taller está dirigido a estudiantes de nivel superior y de posgrado con interés en conocer técnicas recientes de procesamiento de lenguaje natural, deep learning, así como en las aplicaciones y retos recientes que se pueden abordar empleando estos coceptos. 

Principalmente dirigido a:

  • Estudiantes en su último año de carrera, preferentemente con fomación de Computación o áreas afines
  • Estudiantes de posgrado con intereses en el desarrollo de métodos automáticos para el análisis del lengauje 

 

Objetivo General

El lenguaje humano es el medio de comunicación existente más eficaz, y a su vez el más complejo. Uno de los retos a resolver en esta era de la información y del conocimiento es el tratamiento automático del lenguaje. El objetivo general de este taller es proporcionar a los asistentes una introducción, intensiva y accesible, a la Inteligencia Artificial, a la Lingüística Computacional y a las herramientas relacionadas existentes actualmente. Usar de forma apropiada estos conceptos representan un nicho de oportunidad para el desarrollo de trabajos multidisciplinarios de alto impacto.

 

Dinámica del Taller 

Los tutoriales que serán impartidos en el taller representan un material altamente práctico. Las dinámicas del taller están pensadas para que los asistentes aprendan de manera práctica por medio de ejemplos y ejercicios resueltos. Además de lo anterior, tendremos la participación de reconocidos investigadores en el área, quienes nos expondrán los restos presentes y futuros del área. 

 

Solicitud de registro

Esta edición del taller se realizará como evento satétile del CORE (http://www.core.cic.ipn.mx/), por lo cual tiene un cupo limitado. Se recomienda a los interesados visitar la página de registro para garantizar su lugar en el evento. 

Fechas importantes

El TallerNLP2018 se realizará los días 31 de Julio y 1 de Agosto del 2019 en las Instalaciones del CIC-IPN. 

 

Cómo llegar

Ver el mapa

Ubicación UAM Cuajimalpa

Dirección:

Av. Juan de Dios Bátiz, Esq. Miguel Othón de Mendizábal |Col. Nueva Industrial Vallejo 
Delegación Gustavo A. Madero | C.P 07738 | México

 

Transporte público y rutas más comunes.

Programa


Programa General

Todas las actividades se realizarán en el edificio del CIC-IPN de acuerdo a las indicaciones que se darán al registrarse.

 

Miércoles 31 de Julio - 9:00 a 10:30hrs

Panorama de las tecnologías del lenguaje humano: actualidad y retos futuros (Dr. Hiram Calvo / CIC-IPN)

Diapositivas

Video de la presentación (FB video)

 

Miércoles 31 de Julio - 11:00 a 14:00hrs

Introducción al aprendizaje automático (Dra. Helena Gómez Adorno / UNAM)

Objetivo:

Comprender los conceptos básicos de Aprendizaje Automático y el flujo de trabajo. Cómo aplicar correctamente el aprendizaje automático componentes y características (como caja negra). Ventajas y desventajas de diferentes algoritmos de clasificación. Aprender a aplicar algoritmos de aprendizaje automático en Python usando el paquete scikit-learn.

Contenido:

  • Fundamentos del aprendizaje automático: introducción a SciKit Learn
    • Conceptos básicos de aprendizaje automático

    • Tareas y flujo de trabajo usando un problema de clasificación de ejemplo usando el método de k- vecinos más cercanos.

    • Herramientas de Python para aprendizaje automático: Implementación de ejemplo usando la biblioteca scikit-learn
  • Clasificación supervisada: Clasificación y Regresión
    • Complejidad del modelo: Generalización, overfitting y underfitting

    • Máquinas de vectores de soporte

    • Árboles de desición

    • Clasificadores Bayesianos

    • Validación cruzada para la evaluación del modelo

  • Evaluación: Cómo optimizar un modelo de aprendizaje automático
    • Métricas de evaluación

    • Matriz de confusión

    • Funciones de decisión

    • Selección del modelo

Requerimientos:

  • Python 3, jupyter notebook, scikit-learn 0.17.1, scipy 0.17.1, numpy 1.11.1, pandas 0.18.1, matplotlib 2.0.0, seaborn 0.7.1, graphviz 0.7.0

Material aquí.

Miércoles 31 de Julio - 15:00 a 18:00hrs

De repesentaciones clásicas a representaciones avanzadas para NLP (Dr. Ivan V. Meza Ruiz / IIMAS)

Objetivo: 

Que el alumno se familiarice con los distintos tipos de representación tradicionales dentro del área de Procesamiento de Lenguaje Natural. Dar a conocer representaciones semánticas, y las ventajas de estas sobre las Bolsas de Palabras.

Contenido:

  • Introducción a representaciones de texto para NLP
  • Técnicas de preprocesamiento de texto
    • Características.
    • Represetacioes: ngramas, esquemas de pesado, bolsa de palabras, LIWC, LDA, Matrix Factorization, GLOVE, word2vec

Requerimientos:

  • PC, con Linux preferentemente o con Python Acanonda.

Modalidad:

  • Teórico-Práctica

Ver Diapositivas

Material del curso

 

 

Jueves 1 de Agosto - 9:00 a 10:30hrs

Predicción de reacciones emocionales en redes sociales ante artículos noticiosos (Dr. Omar J. Gambino/ IPN)

Ver video de la presentación (FB video)

Jueves 1 de Agosto - 11:00 a 12:00hrs

Influence and Bots detection in Twitter. A pragmatic method using NLP. Christian E. Maldonado (CIC-IPN)

Ver diapositivas

Jueves 1 de Agosto - 12:30 a 14:00hrs

Automatic Detection of Fake Content in Digital Media Texts. Maaz Amjad (CIC-IPN)

Ver diapositivas

Ver video de la presentación (FB video)

Ponentes


Dra. Helena Gómez Adorno

Investigadora Posdoctoral en el Grupo de Ingeniería Lingüística del Instituto de Ingeniería de la UNAM. Licenciada de la Universidad Nacional de Asunción, Paraguay. Realizó la maestría en ciencias de la computación en la Benemérita Universidad Autónoma de Puebla y obtuvo su doctorado en el Centro de Investigación en Computación del IPN. Realizó estancias de investigación en la Universidad del Egeo (Grecia) y en el Centro de Investigación y Desarrollo de IBM en Alemania. Sus intereses de investigación se encuentran en el área del procesamiento automático del lenguaje. Ha trabajado en sistemas de búsqueda de respuestas, similitud semántica, atribución de autoría y perfilado de autor.

 

 

 

 

 

 

 

Dr. Ivan Vladimir Meza Ruiz

Investigador asociado del Departamento de Ciencias de la Computación del Instituto de Investigaciones en Matemáticas Aplicadas y en Sistemas de la UNAM. Ingeniero por la Facultad de Ingeniería de la UNAM, Maestro y Doctor por la Universidad de Edimburgo. Especializado en la intersección entre el lenguaje humano y la inteligencia artificial. Ha trabajado en sistemas de diálogo, análisis forense del habla, análisis de discurso, traducción automática, robótica y otros.  Ha participado en trece proyectos de investigación, autor de más de 60 artículos en congresos, talleres y revistas internacionales. Miembro del Sistema Nacional de Investigadores nivel I.

 

 

 

 

 

 

Dr. Hiram Calvo

Hiram Calvo obtuvo el grado de doctor en ciencias de la computación con mención honorífica en 2006 en el Centro de Investigación en Computación (CIC) del Instituto Politécnico Nacional (IPN). Su tesis consistió en un analizador sintáctico de dependencias para el español llamado DILUCT. Obtuvo la Presea Lázaro Cárdenas en 2006. Realizó una estancia postdoctoral de 2008 a 2010 en Nara, Japón, realizando trabajos de análisis de argumentos de una oración con representación distribuida. Desde 2006 es profesor investigador de tiempo completo en el CIC-IPN en el laboratorio de inteligencia artificial. Sus principales intereses son semántica léxica, análisis de texto (perfilado de autor, detección de textos engañosos, clasifiación de emociones), y medidas de semajanza.

Contacto


Dr. Hiram Calvo
hcalvo@cic.ipn.mx
Centro de Investigación en Computación,
Instituto Politécnico Nacional
 

Comité organizador

Agradecimientos

Agradecemos el apoyo de la Red Temática en Tecnologías del Lenguaje, así como el apoyo proporcionado por los mismbros de la Asociación Mexicana de Procesamiento de Lenguaje Natural, y de la División de Ciencias de la Comunicación y Diseño de la UAM Cuajimalpa. Finalmente, agradecemos el entusiasmo y dedicación de los ponentes invitados en esta edición del taller.