Categorías: Marketing Digital

Google KELM reduce el sesgo y mejora la precisión de los hechos

[ad_1]

Google AI Blog anunció KELM, una forma que podría usarse para reducir el sesgo y el contenido tóxico en la búsqueda (respuesta de pregunta de dominio abierto). Utiliza un método llamado TEKGEN para convertir los hechos del Gráfico de conocimiento en texto en lenguaje natural que luego se puede usar para mejorar los modelos de procesamiento del lenguaje natural.

¿Qué es KELM?

KELM es un acrónimo de Pre-formación del Modelo de Lenguaje Mejorado por el Conocimiento. Los modelos de procesamiento del lenguaje natural como BERT generalmente se entrenan en la web y otros documentos. KELM propone agregar contenido fáctico confiable (conocimiento mejorado) al pre-entrenamiento del modelo de lenguaje con el fin de mejorar la precisión fáctica y reducir el sesgo.

TEKGEN convierte datos estructurados de gráficos de conocimiento en texto en lenguaje natural conocido como KELM Corpus

KELM utiliza datos fiables

Los investigadores de Google propusieron usar gráficos de conocimiento para mejorar la precisión de los hechos porque son una fuente confiable de datos.

Anuncio publicitario

Continuar leyendo a continuación

“Las fuentes alternativas de información son los gráficos de conocimiento (KG), que consisten en datos estructurados. Los KG son de naturaleza fáctica porque la información generalmente se extrae de fuentes más confiables, y los filtros de posprocesamiento y los editores humanos aseguran que se elimine el contenido inapropiado e incorrecto “.

¿Google utiliza KELM?

Google no ha indicado si KELM está en uso o no. KELM es un enfoque para la formación previa del modelo de lenguaje que muestra una gran promesa y se resumió en el blog de IA de Google.

Sesgo, precisión fáctica y resultados de búsqueda

Según el artículo de investigación, este enfoque mejora la precisión fáctica:

“Tiene las ventajas adicionales de una precisión fáctica mejorada y una toxicidad reducida en el modelo de lenguaje resultante”.

Esta investigación es importante porque reduce el sesgo y aumenta la precisión de los hechos podría influir en la clasificación de los sitios.

Pero hasta que se ponga en uso KELM, no hay forma de predecir qué tipo de impacto tendría.

Actualmente, Google no verifica los resultados de búsqueda.

KELM, en caso de que se introdujera, posiblemente podría tener un impacto en los sitios que promueven declaraciones e ideas objetivamente incorrectas.

Anuncio publicitario

Continuar leyendo a continuación

KELM Podría Impacto más que la búsqueda

El KELM Corpus se ha lanzado bajo una licencia Creative Commons (CC BY-SA 2.0).

Eso significa, En teoria, cualquier otra empresa (como Bing, Facebook o Twitter) también puede utilizarlo para mejorar su formación previa al procesamiento del lenguaje natural.

Es posible luego, que la influencia de KELM podría extenderse a muchas plataformas de búsqueda y redes sociales.

Vínculos indirectos con MUM

Google también ha indicado que el algoritmo MUM de próxima generación no se lanzará hasta que Google esté satisfecho de que el sesgo no afecta negativamente las respuestas que da.

Según el anuncio de Google MUM:

“Así como hemos probado cuidadosamente las muchas aplicaciones de BERT lanzadas desde 2019, MUM se someterá al mismo proceso que aplicamos estos modelos en la Búsqueda.
Específicamente, buscaremos patrones que puedan indicar sesgos en el aprendizaje automático para evitar introducir sesgos en nuestros sistemas “.

El enfoque de KELM apunta específicamente a la reducción de sesgos, lo que podría hacerlo valioso para desarrollar el algoritmo MUM.

El aprendizaje automático puede generar resultados sesgados

El artículo de investigación afirma que los datos que utilizan los modelos de lenguaje natural como BERT y GPT-3 para la formación pueden dar como resultado “contenido tóxico”Y sesgos.

En informática hay un antiguo acrónimo, GIGO, que significa Garbage In – Garbage Out. Eso significa que la calidad de la salida está determinada por la calidad de la entrada.

Si está entrenando el algoritmo con alta calidad, el resultado será de alta calidad.

Lo que proponen los investigadores es mejorar la calidad de los datos en los que se capacitan tecnologías como BERT y MUM para eliminar sesgos.

Gráfico de conocimiento

El gráfico de conocimiento es una colección de hechos en un formato de datos estructurados. Los datos estructurados son un lenguaje de marcado que comunica información específica de una manera que las máquinas pueden consumir fácilmente.

En este caso, la información son hechos sobre personas, lugares y cosas.

La Google Knowledge Graph se introdujo en 2012 como una forma de ayudar a Google a comprender las relaciones entre las cosas. Entonces, cuando alguien pregunta sobre Washington, Google podría discernir si la persona que hace la pregunta estaba preguntando sobre Washington, el estado o el Distrito de Columbia.

Anuncio publicitario

Continuar leyendo a continuación

Se anunció que el gráfico de conocimiento de Google está compuesto por datos de fuentes confiables de hechos.

El anuncio de Google de 2012 caracterizó el gráfico de conocimiento como un primer paso hacia la construcción de la próxima generación de búsqueda, que estamos disfrutando actualmente.

Gráfico de conocimiento y precisión fáctica

Los datos del gráfico de conocimiento se utilizan en este trabajo de investigación para mejorar los algoritmos de Google porque la información es confiable y confiable.

El artículo de investigación de Google propone integrar la información del gráfico de conocimiento en el proceso de capacitación para eliminar los sesgos y aumentar la precisión de los hechos.

Lo que propone la investigación de Google es doble.

  1. Primero, necesitan convertir las bases de conocimiento en texto en lenguaje natural.
  2. En segundo lugar, el corpus resultante, denominado Preentrenamiento del modelo de lenguaje mejorado por el conocimiento (KELM), se puede integrar en el preentrenamiento del algoritmo para reducir los sesgos.

Los investigadores explican el problema de esta manera:

“Los grandes modelos de procesamiento de lenguaje natural (NLP) previamente entrenados, como BERT, RoBERTa, GPT-3, T5 y REALM, aprovechan los corpus de lenguaje natural que se derivan de la Web y se ajustan a datos específicos de la tarea …

Sin embargo, el texto en lenguaje natural por sí solo representa una cobertura limitada del conocimiento … Además, la existencia de información no fáctica y contenido tóxico en el texto puede eventualmente causar sesgos en los modelos resultantes “.

Anuncio publicitario

Continuar leyendo a continuación

Desde datos estructurados de Knowledge Graph hasta texto en lenguaje natural

Los investigadores afirman que un problema con la integración de la información de la base de conocimientos en la formación es que los datos de la base de conocimientos se encuentran en forma de datos estructurados.

La solución es convertir los datos estructurados del gráfico de conocimiento a texto en lenguaje natural utilizando una tarea de lenguaje natural llamada generación de datos a texto.

Explicaron que debido a que la generación de datos a texto es un desafío, crearon lo que llamaron un nuevo “tubería” llamada “Texto de KG Generator (TEKGEN)” para resolver el problema.

Citación: Generación de corpus sintéticos basados ​​en gráficos de conocimiento para la formación previa del modelo de lenguaje mejorado (PDF)

Exactitud de los hechos mejorada del texto en lenguaje natural de TEKGEN

TEKGEN es la tecnología que los investigadores crearon para convertir datos estructurados en texto en lenguaje natural. Es este resultado final, texto fáctico, que se puede usar para crear el corpus KELM que luego se puede usar como parte del entrenamiento previo de aprendizaje automático para ayudar a evitar que el sesgo se introduzca en los algoritmos.

Los investigadores notaron que agregar esta información adicional de gráficos de conocimiento (corpus) en los datos de entrenamiento resultó en una mejor precisión de los hechos.

Anuncio publicitario

Continuar leyendo a continuación

El artículo de TEKGEN / KELM afirma:

“Mostramos además que verbalizar un KG completo y enciclopédico como Wikidata se puede utilizar para integrar KG estructurados y corpus de lenguaje natural.

… nuestro enfoque convierte el KG en texto natural, lo que permite que se integre sin problemas en los modelos de lenguaje existentes. Tiene las ventajas adicionales de una precisión fáctica mejorada y una toxicidad reducida en el modelo de lenguaje resultante “.

El artículo de KELM publicó una ilustración que muestra cómo un nodo de datos estructurados se concatena y luego se convierte desde allí a texto natural (verbalizado).

Dividí la ilustración en dos partes.

A continuación se muestra una imagen que representa datos estructurados de un gráfico de conocimiento. Los datos se concatenan al texto.

Captura de pantalla de la primera parte del proceso de conversión de TEKGEN

La siguiente imagen representa el siguiente paso del proceso de TEKGEN que toma el texto concatenado y lo convierte en un texto en lenguaje natural.

Anuncio publicitario

Continuar leyendo a continuación

Captura de pantalla de texto convertido en texto en lenguaje natural

Generando el Corpus KELM

Hay otra ilustración que muestra cómo se genera el texto en lenguaje natural de KELM que se puede usar para el entrenamiento previo.

El artículo de TEKGEN muestra esta ilustración más una descripción:

  • “En el Paso 1, los triples de KG se alinean con el texto de Wikipedia usando supervisión a distancia.
  • En los pasos 2 y 3, T5 se ajusta secuencialmente primero en este corpus, seguido de una pequeña cantidad de pasos en el corpus WebNLG,
  • En el Paso 4, BERT se ajusta para generar una puntuación de calidad semántica para las oraciones generadas con triples.
  • Los pasos 2, 3 y 4 juntos forman TEKGEN.
  • Para generar el corpus KELM, en el Paso 5, se crean subgrafos de entidad utilizando los recuentos de alineación de pares de relaciones del corpus de entrenamiento generado en el paso 1.
    Los triples del subgrafo se convierten luego en texto natural usando TEKGEN “.

Anuncio publicitario

Continuar leyendo a continuación

KELM trabaja para reducir el sesgo y promover la precisión

El artículo de KELM publicado en el blog de IA de Google afirma que KELM tiene aplicaciones del mundo real, particularmente para tareas de respuesta a preguntas que están explícitamente relacionadas con la recuperación de información (búsqueda) y el procesamiento del lenguaje natural (tecnologías como BERT y MUM).

Google investiga muchas cosas, algunas de las cuales parecen ser exploraciones de lo que es posible, pero por lo demás parecen callejones sin salida. La investigación que probablemente no se incluirá en el algoritmo de Google generalmente concluye con una declaración de que se necesita más investigación porque la tecnología no cumple con las expectativas de una forma u otra.

Pero ese no es el caso de la investigación de KELM y TEKGEN. De hecho, el artículo es optimista sobre la aplicación de los descubrimientos en el mundo real. Eso tiende a darle una mayor probabilidad de que KELM eventualmente pueda ingresar a la búsqueda de una forma u otra.

Así es como los investigadores concluyeron el artículo sobre KELM para reducir el sesgo:

“Esto tiene aplicaciones del mundo real para tareas intensivas en conocimiento, como la respuesta a preguntas, donde es esencial proporcionar conocimiento fáctico. Además, estos corpus se pueden aplicar en la formación previa de grandes modelos lingüísticos y potencialmente pueden reducir la toxicidad y mejorar la factualidad “.

Anuncio publicitario

Continuar leyendo a continuación

¿Se utilizará KELM en breve?

El reciente anuncio de Google del algoritmo MUM requiere precisión, para lo que se creó el corpus KELM. Pero la aplicación de KELM no se limita a MUM.

El hecho de que reducir el sesgo y la precisión fáctica sea una preocupación fundamental en la sociedad actual y que los investigadores sean optimistas acerca de los resultados tiende a darle una mayor probabilidad de ser utilizado de alguna forma en el futuro en la búsqueda.

Citas

Artículo de Google AI sobre KELM
KELM: Integración de gráficos de conocimiento con corpora de pre-formación de modelos de lenguaje

Documento de investigación de KELM (PDF)
Generación de corpus sintéticos basados ​​en gráficos de conocimiento para la formación previa del modelo de lenguaje mejorado

Corpus de entrenamiento de TEKGEN en GitHub

!function(f,b,e,v,n,t,s) {if(f.fbq)return;n=f.fbq=function(){n.callMethod? n.callMethod.apply(n,arguments):n.queue.push(arguments)}; if(!f._fbq)f._fbq=n;n.push=n;n.loaded=!0;n.version='2.0'; n.queue=[];t=b.createElement(e);t.async=!0; t.src=v;s=b.getElementsByTagName(e)[0]; s.parentNode.insertBefore(t,s)}(window,document,'script', 'https://connect.facebook.net/en_US/fbevents.js');

if( typeof sopp !== "undefined" && sopp === 'yes' ){ fbq('dataProcessingOptions', ['LDU'], 1, 1000); }else{ fbq('dataProcessingOptions', []); }

fbq('init', '1321385257908563');

fbq('track', 'PageView');

fbq('trackSingle', '1321385257908563', 'ViewContent', { content_name: 'google-kelm', content_category: 'news seo ' });

}// end of scroll user

[ad_2]

Source link

¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)
webmaster

Entradas recientes

25 hechos que no sabías sobre Baidu

[ad_1] Google siempre domina los titulares de SEO. Los creadores de contenido, los administradores de… Leer más

3 semanas hace

Programa de valor masivo del cerebro del redactor

Product Name: Programa de valor masivo del cerebro del redactor [ad_1] Click here to get… Leer más

3 semanas hace

9 formas de mejorar su carrera de marketing de búsqueda

[ad_1] 9 formas de mejorar su carrera de marketing de búsqueda Tu privacidad significa el… Leer más

3 semanas hace

Gestión de un programa de embajadores de marca

[ad_1] En Internet, las personas pueden preguntar fácilmente a los demás qué están pensando. Esto… Leer más

3 semanas hace

Google está probando el protocolo IndexNow para la sostenibilidad

[ad_1] Un portavoz de Google ha confirmado que la empresa de búsqueda probará el nuevo… Leer más

3 semanas hace

Manifestación de los sueños: ¡ofrece hasta un 75% de comisión!

Product Name: Manifestación de los sueños: ¡ofrece hasta un 75% de comisión! [ad_1] Click here… Leer más

3 semanas hace