July 20th 2023

Video analytics: una mirada inteligente sobre las imágenes

Con apoyo en la inteligencia artificial, hoy es posible obtener información para la toma de decisiones de enormes cantidades de imágenes capturadas en video: desde movimientos anómalos o sospechosos hasta la ruta de comportamiento de los consumidores.

¿Qué es OpenAI?

OpenAI es una empresa de investigación en inteligencia artificial (IA) que desarrolla y promueve tecnologías seguras y beneficiosas para la humanidad. Es conocida por sus modelos de Lenguaje GPT, Codex y Dall-E.

¿Qué es GPT y cómo funciona?

GPT (Generative Pre-trained Transformer) es un LLM desarrollado por OpenAI. Está basado en la arquitectura Transformer, una red neuronal profunda diseñada para procesar secuencias de palabras y capturar las relaciones entre ellas. Fue entrenado con grandes cantidades de datos para que pudiera aprender patrones y estructuras del lenguaje y así generar Texto coherente y contextualmente relevante.

¿Cuáles son las diferencias entre GPT 3.5 y GPT 4?

GPT-4 ofrece una mejora significativa en capacidad de comprensión visual, reducción de alucinaciones de IA, mayor inteligencia y rendimiento, respuestas más creativas, seguridad mejorada, ventana y tamaño de contexto mejorados y mayor capacidad para comprender y analizar imágenes.

Aspecto	GPT-3.5	GPT-4
Órdenes de entrada visuales	Sólo acepta peticiones de texto.	Es multimodal y admite entradas en texto y visuales, incluyendo imágenes, fotografías y problemas matemáticos manuscritos.
Comprender imágenes	No puede comprender imágenes.	Puede comprender y describir prácticamente cualquier imagen, identificando objetos concretos dentro de una foto con múltiples elementos visuales.
Alucionación de IA	Tiene una mayor probabilidad de generar información sin sentido y aparentemente cierta pero falsa.	Tiene entre un 19% y un 29% menos de probabilidad de alucinar en comparación con GPT-3.5.
Parámetros	175 mil millones de parámetros.	Supera ampliamente la cifra de GPT-3.5, aunque no se ha revelado el número exacto.
Creatividad en respuestas	Proporciona respuestas creativas a los prompts, pero su creatividad es limitada	Proporciona respuestas más creativas y muestra mayor ingenio en la resolución de problemas más difíciles.
Seguridad en las respuestas	Enfoque de seguridad basado en la moderación a posteriori.	Cuenta con medidas de seguridad integradas en el sistema, generando menos respuestas tóxicas y con menor probabilidad de que responda a solicitudes de contenido no permitido.
Ventana y tamaño de contexto	Son limitados, lo que puede resultar en la pérdida del contexto de la conversación y la falta de seguimiento de instrucciones a medida que ésta avanza. Además, la longitud del texto es limitada y puede requerir que se divida el texto de entrada en varios fragmentos. Límite de tokens en el contexto: GPT 3 : 2.049 GPT 3.5: 4.096	Es significativamente superior, lo que le permite retener y recordar mejor el contexto de una conversación durante más tiempo, así como seguir instrucciones de manera más coherente. Límite de *tokens* en el contexto: GPT 4 8K : 8.192 GPT 4 32k: 32.768

¿Qué es LLM en GPT?

Los LLM (Large Language Model) son sistemas de IA diseñados para comprender y generar texto en lenguaje natural, es decir, pueden “entender” y “hablar” en varios idiomas. Aceptan como input un texto en lenguaje natural y también devuelven texto como output. El modelo de GPT pertenece a la familia de los LLM.

¿Qué es un embedding?

El embedding es una representación numérica (vector) de palabras o frases que capturan el significado semántico y la relación entre ellas. Se almacenan en bases vectoriales para ser utilizadas por un LLM.

¿Qué es el contexto y tokens?

El contexto se refiere al conjunto de palabras y oraciones que rodean un determinado fragmento de texto y que el modelo utiliza para comprender el significado y generar respuestas coherentes y relevantes. La longitud del contexto se mide en tokens. El modelo de GPT 3.5 acepta hasta 4.000 tokens de contexto.

La forma de medir el consumo de estos modelos OpenAI, tanto de input como de output, es a través de tokens. GPT utiliza la tokenización Byte Pair Encoding (BPE). Aproximadamente y como medida general, 1.000 tokens equivalen a 750 palabras.

¿Qué es y cuál es la importancia del Prompt Engineering?

La forma que tenemos de “configurar” los modelos como GPT para obtener los resultados deseados por el usuario es a través del diseño de las instrucciones o las consultas que se le proporcionan. Esto es prompt engineering (o ingeniería de prompts) y resulta vital: el modelo de lenguaje interpreta y genera texto basándose en las instrucciones o consultas que se le presentan. Si se formula correctamente el prompt, se obtiene una respuesta más precisa y adecuada a la intención del usuario.

¿Cómo se entrena un modelo de lenguaje GPT y qué datos se utilizan?

Para entrenar un modelo de lenguaje GPT se utilizan grandes cantidades de texto provenientes de diversas fuentes como libros, artículos de noticias y páginas web para entrenar al modelo en la tarea de predecir la siguiente palabra o frase en un texto dado. El modelo aprende a capturar patrones y estructuras del lenguaje a través de este entrenamiento masivo.

¿Qué son system message y few shots?

Dentro del campo de prompt engineering, el concepto de system message se refiere a una parte del texto inicial o del prompt que se utiliza para influir en el comportamiento o la respuesta del modelo de lenguaje.

A la hora de ajustar el prompt para obtener respuestas más acertadas, podemos utilizar el método de few-shot learning, que consiste en la capacidad de un modelo de aprender y generalizar a partir de un número limitado de ejemplos.

¿Cuál es la diferencia entre fine-tuning y pre-training en el contexto de GPT?

GPT es semi-supervised learning, eso significa que esta preentrenado y permite al usuario la posibilidad de hacer un fine-tuning sobre el modelo.

Pre-training es la etapa inicial del entrenamiento de un modelo GPT, en que se utiliza un corpus masivo de texto para que aprenda representaciones generales del lenguaje. El fine-tuning es la fase posterior, en que el modelo se ajusta o se especializa en tareas o dominios específicos utilizando un conjunto de datos más pequeño y específico.

¿Cómo se manejan los sesgos en los modelos de lenguaje GPT?

Los sesgos en los modelos de lenguaje GPT pueden ser abordados mediante la selección y la preparación cuidadosa de los datos de entrenamiento, así como a través de la aplicación de técnicas de corrección y ajuste. Además, la diversidad en los datos y la revisión humana en la etapa de generación de texto ayudan a mitigar los sesgos no deseados.

¿Cuáles son las aplicaciones de GPT?

GPT ofrece diversas aplicaciones: generación automática de contenido, traducción automática, resumen de texto, asistencia en la escritura, generación de respuestas en chatbots o análisis de sentimientos en redes sociales, entre muchas otras.

¿Cuáles son los principales casos de uso de GPT en las organizaciones?

GPT habilita numerosos casos de uso para que las organizaciones puedan extraer valor de esta tecnología. Estos son algunos de los más destacados:

– Generación de contenido. Creación automática y eficiente de textos coherentes y relevantes como artículos, descripciones de productos o respuestas eficientes y precisas.

– Escritura de código fuente. Efectúa automáticamente documentación y mejoras sobre código fuente, incluyendo archivos readme sobre proyectos o correcciones de formato y de estructuras lógicas en base a buenas prácticas.

– Asistentes conversacionales con procesamiento de archivos real-time. Pueden responder preguntas específicas sobre información almacenada en documentos, audios e imágenes. Aplica a numerosas industrias:

Educación: para resumir clases grabadas o para que los profesores puedan revisar el historial académico de sus alumnos.
Salud: para leer estudios o informes y agilizar el análisis de la historia clínica del paciente.
Seguridad: para detectar elementos potencialmente peligrosos a partir del análisis de videos.
Banca: para procesar documentos directamente desde la imagen de éstos o para detectar posibles fraudes a partir de falsificación de documentos o suplantación de identidad.
Marketing digital: para detectar emociones del cliente en las interacciones y mejorar la experiencia o para ayudar en la planificación, ejecución y seguimiento de las campañas.

– Gestión documental. Resuelve consultas del usuario a partir de grandes volúmenes de información almacenada e indexada para capitalizar mejor los datos propios y también para incrementar sus niveles de seguridad. RRHH puede utilizarla para procesar currículums, formularios de solicitud de empleo y otros documentos relacionados con la contratación de personal o para el análisis automático de habilidades, experiencia laboral, referencias y comparar perfiles con los requisitos del puesto. Por su parte, en logística y transporte aplica a la gestión de grandes volúmenes de documentos relacionados con la cadena de suministro para optimizar la gestión de inventarios, el rastreo de envíos y la agilización de los procesos de facturación. Y en las áreas legales, para buscar y extraer de documentos legales digitalizados a través de palabras claves o identificar cláusulas específicas, términos legales y resúmenes de casos para agilizar la revisión de documentos legales y facilitar la búsqueda de información.

– Generación de consultas e integración con Power BI. Responde consultas en lenguaje natural a partir de información almacenada en bases de datos estructuradas. Transcribe los requerimientos del usuario de texto común a consultas SQL. Luego se conecta a la base de datos para efectuar las consultas y genera una respuesta en lenguaje natural a partir del dato obtenido. Por otra parte, se integra con PowerBI para generar un dashboard interactivo sin necesidad de conocimientos técnicos avanzados.

Si quieres conocer más acerca de este tema

CONTÁCTANOS

La entrada GenAI: 12 respuestas clave se publicó primero en Nubiral.

This post first appeared on NUBIRAL, please read the originial post: here

People also like

Subinspector denuncia suposto esquema de corrupÃ§Ã£o na PolÃcia Nacional e foge para a Europa por temer pela vida

GenAI: 12 respuestas clave

Video analytics: una mirada inteligente sobre las imágenes

Con apoyo en la inteligencia artificial, hoy es posible obtener información para la toma de decisiones de enormes cantidades de imágenes capturadas en video: desde movimientos anómalos o sospechosos hasta la ruta de comportamiento de los consumidores.

Related Articles

Si quieres conocer más acerca de este tema

Share the post

Subscribe to Nubiral

Thank you for your subscription