reCAPTCHA: un invento genial!

Mata un spam-bot, ayuda a digitalizar un libro. ¿Estás cansad@ de perder tu tiempo completando formularios en Internet? Cuando llega el momento de cerrar la operación aparece una palabra poco legible, la cual puede ser entendida solamente por humanos: eso es un CAPTCHA. Sirve para evitar que los spam-bots (programas que recorren la web poniendo publicidad basura en sitios dinámicos) hagan desastres. Si sos capaz de completar un CAPTCHA, entonces sos human@.

Bien, a todo esto, sucede que la gente pierde al menos 10 segundos de su tiempo completando captchas… eso parece poco, pero si lo multiplicamos por la cantidad de usuarios de Internet la cifra es astronómica; si a su vez utilizáramos tal fuerza de trabajo humana para ayudar a digitalizar libros ¿qué ocurriría?
reCAPTCHA
Re-Capcha es el invento de un ingenioso joven programador que decidió poner manos sobre el asunto, ayudar a las bibliotecas a digitalizar sus libros y a los sitios web a mantenerse limpios de spam.
Las computadoras no pueden reconocer bien lo que dicen ciertos textos antiguos en papel, por lo cual son necesarios el ojo y el cerebro humanos para comprenderlos y ayudar a digitalizarlos, pasando de imágenes en pixels (la foto de la página de un libro) a texto de computadora (el tipo de texto digital que vemos en cualquier sitio web o tipeamos en nuestro procesador de textos)
Cada vez que tipeas en capcha de reCAPTCHA estás contribuyendo con la preservación de gran parte de la cultura de la humanidad. Los medios masivos de comunicación se hicieron eco de la historia: Wall Street Journal, Boston Globe, Guardian, Wired entre otros cientos de publicaciones importantes destacaron la iniciativa. Cerca de 75.000 sitios web se han subscripto a la utilización de este servicio, incluyendo los enormes Facebook, Craigslist o Ticketmaster, y hasta ahora algo así como 300 millones de personas (más del 5% de la población mundial!) ayudó a digitalizar contenidos desde New York Times y Internet Archive. Por lo pronto, unas 5.000 millones de palabras han sido procesadas por humanos en operaciones reCAPTCHA.
Para quienes quieran probar reCAPCHA ahora mismo: instalé un Plugin para Wordpress en un blog que administro.
http://ovejafm.com/programa29#comment-27
Por último, existe un sitio web muy interesante llamado GWAP, el cual tiene un propósito similar: ayudar a resolver problemas de computación, pero en este caso las máquinas aprenderán de nosotros mientras jugamos y los desarrolladores piensan que así lograremos construir un mundo mejor… interesante, pero parece que nos toman de tontos, pretenden mejorar los motores de búsqueda (y no dicen de qué empresa) gracias a nuestro trabajo…
Articulo siguiente >> |
No related posts.
Marcos el 29 de Abril de 2009Categorías: Internet, Software Libre
9 comentario/s hasta el momento


















29 de Abril de 2009 a las 20:14
Hola: no me quedo claro esto de Recaptcha. aguien podria decirlo con otras palabras? aqui o en mi email. gracias.
argento2002@gmail.com
29 de Abril de 2009 a las 21:44
Ok, lo cuento de otra forma
Existen bibliotecas alrededor del mundo que están escaneando libros para guardarlos en forma digital y que vos puedas verlos desde Internet.
Es decir que obras de Shakespeare y otros autores están siendo pasadas a computadoras. El proceso de reconocimiento de caracteres se llama OCR (optical character recognition), pero a veces las máquinas no pueden entender un caracter si es confuso, si se ve mal en el libro
por ejemplo la letra
A
la letra A allí la vez bien porque es una letra digitalizada y no es una foto de una letra en mal estado, pero si fuera de un libro viejo se vería difusa. Una computadora fallaría al hacer un OCR (reconocimiento de caracteres), PERO UN HUMANO NO!!
Es decir que si millones de seres humanos alrededor del mundo vemos esas fotos de letras confusas (que forman las palabras de los captchas) y decimos que por ejemplo la palabra que se ve mal y dice “hola” para nosotros dice efectivament “hola”, entonces ayudaremos a digitalizar esa palabra “hola”, dado que una computadora no la comprendía, pero nosotros sí!
entonces, millones de libros serán digitalizados gracias a reCAPTCHA, sin que la gente pierda tiempo al completar los captchas
cada vez que tipeas una palabra de “recaptcha” esa información va a sitio de recaptcha y se ingresa en una base de datos, completando la digitalización de ese segmento de un libro de, digamos, shakespeare… ¿se entiende?
practícalo aquí si quieres
http://ovejafm.com/programa29#comment-27
ya mismo agregué imágenes de ejemplo en el artículo.
29 de Abril de 2009 a las 22:42
O sea, es una comunidad de usuarios que ayudan constantemente a generar nuevo contenido… como las traducciones de Launchpad, pues…
29 de Abril de 2009 a las 22:45
Me parece una excelente idea, lo único que no entiendo es cómo van a ir apareciendo dichas imagenes … van a asociar “retazos” de las escaneadas y las van a colocar para que la gente escriba cuando tenga que digitar un CAPTCHA? quién hará eso?
ahora, supongo que van a colocar una librería o webservice para poder tomar el captcha de una central para que todos los que programemos no usemos los sistemas de CAPTCHA actual sino que utilicemos este invento para poderle dar más provecho y que digitemos las palabras “mal escaneadas” lo más pronto posible, cierto?
29 de Abril de 2009 a las 22:45
claro, pero la comunidad de usuarios es virtualmente toda la Internet…
“Me parece una excelente idea, lo único que no entiendo es cómo van a ir apareciendo dichas imagenes … van a asociar “retazos” de las escaneadas y las van a colocar para que la gente escriba cuando tenga que digitar un CAPTCHA? quién hará eso?”
las imágenes aparecen tomando partes de los libros, tal como se explica, mediante un software que lo hace. Y, claro, se asocia lo que nosotros respondemos a la palabra escaneada.
podés probarlo acá
http://ovejafm.com/programa29#comment-27
30 de Abril de 2009 a las 11:31
no me gusta comentar sin informarme pero se me hace tarde y por ahí lo que no se entiende en el articulo es como se hace la comparación con captcha si por lo que entendi vos definis la palabra. barbaro que vos la entendes por que sos humano, pero la funcionalidad del captcha? con que comparas si la maquina no sabe cual es la palabra… obviamente debe andar la respuesta facil por en la pag. por eso digo que por ahí faltaria aclararlo en el articulo.
1 de Mayo de 2009 a las 7:51
La explicación esta clara… libros viejos escaneados donde el OCR es un fracaso tu los puedes leer y digitar que dice.
Aquí veo un BUG o un FUD no se que pensar… si no estoy mal un CAPTCHA verifica lo escrito por un humano con lo que dice la imagen? Si el dueño del sitio WEB coloca el captcha TIENE que saber que dice para poder COMPARAR la imagen con el texto, si la imagen dice HOLA y yo coloco COLA , entonces lo que he escrito tiene que ser verificado! y debe ya estar ESCRITO, sino lo esta entonces la validación sera exitosa con COLA y no HOLA incluso si coloco SAPO hay validación exitosa! como logran esto?… hay algo raro. Digitar cosas ya digitadas? o se convierte en un BUG el CAPTCHA-
Mi pregunta es: ¿¿¿Sino se sabe que esta escrito en la imagen y el humano lo sabe, como lo valida la maquina del CAPTCHA que es correcto lo escrito???? esto si no se me ocurre mas que ha sido ya Digitado por un humano antes de colocar el captcha en el sitio entonces para que digitarlo de nuevo?. Perdonen si no entiendo…
1 de Mayo de 2009 a las 8:03
Por lo que puedo entender se pueden colocar palabras soeces en reCAPTCHA y luego aquel hemoso manuscrito de los caballeros asesinos de las cruzadas dirá:
“Vosotros desistais de su herejia yo los ·$%”·$ en el nombre de Jack y los voy a “·$%”·$ entonces tendran que blow me para ser libreados en espiritu si no os arrepentireis de vuestra “·$%”$· madre que los ha parido.” JAJAJAJAJAJA
Vaya y si le pongo un bot a reCAPTCHA con 15.000 hermosos vocablos de nuestra hermosa lengua plebeya, que serà de
4 de Mayo de 2009 a las 12:45
buen punto jolpater: supongo que reCAPTCHA verificará varias veces lo que diferentes personas contestaron sobre una misma palabra, y si un determinado porcentaje coincide (pongamos, un 90%), entoces lo considera válido
otro método podría ser: el OCR _supone_ que dice tal o cual cosa, con lo cual resta que el humano lo _verifique_