reCAPTCHA: un invento genial!

recapcha_explicacion

Mata un spam-bot, ayuda a digitalizar un libro. ¿Estás cansad@ de perder tu tiempo completando formularios en Internet? Cuando llega el momento de cerrar la operación aparece una palabra poco legible, la cual puede ser entendida solamente por humanos: eso es un CAPTCHA. Sirve para evitar que los spam-bots (programas que recorren la web poniendo publicidad basura en sitios dinámicos) hagan desastres. Si sos capaz de completar un CAPTCHA, entonces sos human@.

recapcha_developer

Bien, a todo esto, sucede que la gente pierde al menos 10 segundos de su tiempo completando captchas… eso parece poco, pero si lo multiplicamos por la cantidad de usuarios de Internet la cifra es astronómica; si a su vez utilizáramos tal fuerza de trabajo humana para ayudar a digitalizar libros ¿qué ocurriría?

reCAPTCHA

Re-Capcha es el invento de un ingenioso joven programador que decidió poner manos sobre el asunto, ayudar a las bibliotecas a digitalizar sus libros y a los sitios web a mantenerse limpios de spam.

Las computadoras no pueden reconocer bien lo que dicen ciertos textos antiguos en papel, por lo cual son necesarios el ojo y el cerebro humanos para comprenderlos y ayudar a digitalizarlos, pasando de imágenes en pixels (la foto de la página de un libro) a texto de computadora (el tipo de texto digital que vemos en cualquier sitio web o tipeamos en nuestro procesador de textos)

Cada vez que tipeas en capcha de reCAPTCHA estás contribuyendo con la preservación de gran parte de la cultura de la humanidad. Los medios masivos de comunicación se hicieron eco de la historia: Wall Street Journal, Boston Globe, Guardian, Wired entre otros cientos de publicaciones importantes destacaron la iniciativa. Cerca de 75.000 sitios web se han subscripto a la utilización de este servicio, incluyendo los enormes Facebook, Craigslist o Ticketmaster, y hasta ahora algo así como 300 millones de personas (más del 5% de la población mundial!) ayudó a digitalizar contenidos desde New York Times y Internet Archive. Por lo pronto, unas 5.000 millones de palabras han sido procesadas por humanos en operaciones reCAPTCHA.

Para quienes quieran probar reCAPCHA ahora mismo: instalé un Plugin para WordPress en un blog que administro.

http://ovejafm.com/programa29#comment-27

Por último, existe un sitio web muy interesante llamado GWAP, el cual tiene un propósito similar: ayudar a resolver problemas de computación, pero en este caso las máquinas aprenderán de nosotros mientras jugamos y los desarrolladores piensan que así lograremos construir un mundo mejor… interesante, pero parece que nos toman de tontos, pretenden mejorar los motores de búsqueda (y no dicen de qué empresa) gracias a nuestro trabajo…


Te gustó esta info?



13 comentarios

  1. Hola: no me quedo claro esto de Recaptcha. aguien podria decirlo con otras palabras? aqui o en mi email. gracias.

    argento2002@gmail.com

  2. Marcos

    Ok, lo cuento de otra forma

    Existen bibliotecas alrededor del mundo que están escaneando libros para guardarlos en forma digital y que vos puedas verlos desde Internet.

    Es decir que obras de Shakespeare y otros autores están siendo pasadas a computadoras. El proceso de reconocimiento de caracteres se llama OCR (optical character recognition), pero a veces las máquinas no pueden entender un caracter si es confuso, si se ve mal en el libro

    por ejemplo la letra

    A

    la letra A allí la vez bien porque es una letra digitalizada y no es una foto de una letra en mal estado, pero si fuera de un libro viejo se vería difusa. Una computadora fallaría al hacer un OCR (reconocimiento de caracteres), PERO UN HUMANO NO!!

    Es decir que si millones de seres humanos alrededor del mundo vemos esas fotos de letras confusas (que forman las palabras de los captchas) y decimos que por ejemplo la palabra que se ve mal y dice “hola” para nosotros dice efectivament “hola”, entonces ayudaremos a digitalizar esa palabra “hola”, dado que una computadora no la comprendía, pero nosotros sí!

    entonces, millones de libros serán digitalizados gracias a reCAPTCHA, sin que la gente pierda tiempo al completar los captchas

    cada vez que tipeas una palabra de “recaptcha” esa información va a sitio de recaptcha y se ingresa en una base de datos, completando la digitalización de ese segmento de un libro de, digamos, shakespeare… ¿se entiende?

    practícalo aquí si quieres

    http://ovejafm.com/programa29#comment-27

    ya mismo agregué imágenes de ejemplo en el artículo.

  3. O sea, es una comunidad de usuarios que ayudan constantemente a generar nuevo contenido… como las traducciones de Launchpad, pues…

  4. Carlos Cerón

    Me parece una excelente idea, lo único que no entiendo es cómo van a ir apareciendo dichas imagenes … van a asociar “retazos” de las escaneadas y las van a colocar para que la gente escriba cuando tenga que digitar un CAPTCHA? quién hará eso?

    ahora, supongo que van a colocar una librería o webservice para poder tomar el captcha de una central para que todos los que programemos no usemos los sistemas de CAPTCHA actual sino que utilicemos este invento para poderle dar más provecho y que digitemos las palabras “mal escaneadas” lo más pronto posible, cierto?

  5. Marcos

    claro, pero la comunidad de usuarios es virtualmente toda la Internet…

    “Me parece una excelente idea, lo único que no entiendo es cómo van a ir apareciendo dichas imagenes … van a asociar “retazos” de las escaneadas y las van a colocar para que la gente escriba cuando tenga que digitar un CAPTCHA? quién hará eso?”

    las imágenes aparecen tomando partes de los libros, tal como se explica, mediante un software que lo hace. Y, claro, se asocia lo que nosotros respondemos a la palabra escaneada.

    podés probarlo acá

    http://ovejafm.com/programa29#comment-27

  6. andres

    no me gusta comentar sin informarme pero se me hace tarde y por ahí lo que no se entiende en el articulo es como se hace la comparación con captcha si por lo que entendi vos definis la palabra. barbaro que vos la entendes por que sos humano, pero la funcionalidad del captcha? con que comparas si la maquina no sabe cual es la palabra… obviamente debe andar la respuesta facil por en la pag. por eso digo que por ahí faltaria aclararlo en el articulo.

  7. jolpater

    La explicación esta clara… libros viejos escaneados donde el OCR es un fracaso tu los puedes leer y digitar que dice.
    Aquí veo un BUG o un FUD no se que pensar… si no estoy mal un CAPTCHA verifica lo escrito por un humano con lo que dice la imagen? Si el dueño del sitio WEB coloca el captcha TIENE que saber que dice para poder COMPARAR la imagen con el texto, si la imagen dice HOLA y yo coloco COLA , entonces lo que he escrito tiene que ser verificado! y debe ya estar ESCRITO, sino lo esta entonces la validación sera exitosa con COLA y no HOLA incluso si coloco SAPO hay validación exitosa! como logran esto?… hay algo raro. Digitar cosas ya digitadas? o se convierte en un BUG el CAPTCHA-

    Mi pregunta es: ¿¿¿Sino se sabe que esta escrito en la imagen y el humano lo sabe, como lo valida la maquina del CAPTCHA que es correcto lo escrito???? esto si no se me ocurre mas que ha sido ya Digitado por un humano antes de colocar el captcha en el sitio entonces para que digitarlo de nuevo?. Perdonen si no entiendo…

  8. jolpater

    Por lo que puedo entender se pueden colocar palabras soeces en reCAPTCHA y luego aquel hemoso manuscrito de los caballeros asesinos de las cruzadas dirá:

    “Vosotros desistais de su herejia yo los ·$%”·$ en el nombre de Jack y los voy a “·$%”·$ entonces tendran que blow me para ser libreados en espiritu si no os arrepentireis de vuestra “·$%”$· madre que los ha parido.” JAJAJAJAJAJA

    Vaya y si le pongo un bot a reCAPTCHA con 15.000 hermosos vocablos de nuestra hermosa lengua plebeya, que serà de

  9. buen punto jolpater: supongo que reCAPTCHA verificará varias veces lo que diferentes personas contestaron sobre una misma palabra, y si un determinado porcentaje coincide (pongamos, un 90%), entoces lo considera válido

    otro método podría ser: el OCR _supone_ que dice tal o cual cosa, con lo cual resta que el humano lo _verifique_

  10. Me parece una increible idea lo del ReCaptcha..
    Yo lo uso pero no tenia idea que estaba contribuyendo a la sociedad de esa manera.
    Wow que idea tan buena.
    Gracias por la informacion

  11. miwesly

    De las dos palabras que te ofrece recaptcha una es conocida por el sistema y la otra no. Se supone que si aciertas la primera también estás acertando la segunda, que es la que proviene del libro. Cuando mucha gente pone lo mismo para la segunda, se da por buena.

  12. MatamesiQuieres

    vete a la mierda

    no sabes como esa mierda nos arruina la vida

  13. Hasta ahora el recaptcha es la mejor opcion para evitar el spam aunque en wordpress tiene varias competencias, nada de le compara y por tal motivo google ya lo ha comprado.

    Muy buena info!