Google heeft het bedrijf ReCAPTCHA gekocht. Daarmee koopt de zoekmachinegigant kennis in over het digitaal fouten opsporen in gescande teksten. En dat is hard nodig bij de ebooks die al online staan.
Captcha is voornamelijk bekend van de willekeurige cijfers en letters die je moet invullen als je een reactie wil achterlaten op een nieuwsartikel of in een forum discussie. De Captcha check zorgt ervoor dat er geen robots op een forum kunnen spammen en dat je kunt aantonen dat je menselijk bent. Captcha staat voor Completely Automated Public Turing test to tell Computers and Humans Apart. ReCAPTCHA heeft de originele Captcha test gepakt en daar een draai aan gegeven door te helpen met de digitalisatie van oude teksten.
ReCAPTCHA zorgt dus voor foutherkenning in gescande teksten en is gebruikt voor het inscannen van het volledige New York Times archief. Google gebruikt OCR om boeken in te scannen, de zogenaamde Optical Character Recognition. Maar helaas gaat dat niet altijd goed. Gezien de grote foutmarge in de reeds gescande boeken van Google, is het geen overbodige luxe om zo’n systeem tot je beschikking te hebben.
Het Captcha systeem geeft twee woorden: een dat al bekend is en een onbekende. Als een persoon het juiste antwoord geeft op het bekende woord, gaat het systeem ervan uit dat het onbekende woord ook correct is. Iedere keer als je een Captcha check invult om aan te tonen dat je menselijk bent, wordt dat gecontroleerd tegen een digitale tekst en de tekst wordt verbeterd en aangevuld. Zo’n 200 miljoen Captcha’s worden iedere dag opgelost.
(Via: Teleread.)