Voit käyttää kuvasta poimittua tekstiä Google Vision -sovellusliittymän avulla noudattamalla useita vaiheita, jotka sisältävät sovellusliittymän Optical Character Recognition (OCR) -ominaisuuksien hyödyntämisen. Google Vision API:n OCR-tekniikka mahdollistaa tekstin havaitsemisen ja poistamisen kuvista, mukaan lukien käsinkirjoitus. Tämä toiminto on erityisen hyödyllinen sovelluksissa, jotka vaativat visuaalisen datan tekstitiedon analysointia ja ymmärtämistä.
Ensin sinun on määritettävä tarvittava ympäristö toimiaksesi Google Vision API:n kanssa. Tämä edellyttää projektin luomista Google Cloud Consolessa, Vision API:n käyttöönottoa ja vaadittujen todennustietojen, kuten API-avaimen tai palvelutilin avaimen, hankkimista.
Kun ympäristösi on määritetty, voit käyttää Vision API:n asyncBatchAnnotateFiles-menetelmää OCR:n suorittamiseen kuvatiedostolle. Tämän menetelmän avulla voit välittää luettelon kuvatiedostoista prosessoitavaksi ja vastaanottaa tulokset asynkronisesti. Vaihtoehtoisesti voit käyttää "asyncBatchAnnotateImages" -menetelmää kuvien luettelon käsittelemiseen suoraan.
Jos haluat poimia tekstiä kuvasta, sinun on luotava AnnotateImageRequest-objektin esiintymä ja määritettävä haluamasi ominaisuudet. Tässä tapauksessa asetat "TEXT_DETECTION"-ominaisuuden osoittamaan, että haluat poimia tekstiä kuvasta. Voit myös määrittää lisäparametreja, kuten kielivihjeen, parantaaksesi OCR:n tarkkuutta.
Seuraavaksi sinun on koodattava kuvatiedosto base64-koodatuksi merkkijonoksi ja luotava "Image"-objektin esiintymä käyttämällä koodattua kuvadataa. Tämä "Image"-objekti tulee lisätä aiemmin luotuun "AnnotateImageRequest"-objektiin.
Pyynnön määrittämisen jälkeen voit lähettää sen Vision API:lle käyttämällä "batchAnnotateImages"- tai "batchAnnotateFiles"-menetelmää valitsemastasi lähestymistavasta riippuen. API käsittelee kuvan ja palauttaa vastauksen, joka sisältää puretun tekstin.
Voit käyttää vastauksesta poimittua tekstiä toistamalla AnnotateImageResponse-objektin textAnnotations-kentän yli. Tämä kenttä sisältää luettelon EntityAnnotation-objekteista, joista jokainen edustaa kuvassa havaittua tekstielementtiä. Jokaisen EntityAnnotation-objektin kuvauskenttä sisältää puretun tekstin.
Tässä on esimerkki Pythonin koodinpätkästä, joka näyttää, kuinka kuvasta purettu teksti saadaan käsiksi Google Vision API:lla:
python from google.cloud import vision def extract_text_from_image(image_path): client = vision.ImageAnnotatorClient() with open(image_path, 'rb') as image_file: content = image_file.read() image = vision.Image(content=content) request = vision.AnnotateImageRequest( image=image, features=[{'type': vision.Feature.Type.TEXT_DETECTION}] ) response = client.batch_annotate_images(requests=[request]) for annotation in response.responses[0].text_annotations: extracted_text = annotation.description print(extracted_text) # Usage extract_text_from_image('path_to_image.jpg')
Tässä esimerkissä toiminto "extract_text_from_image" ottaa kuvatiedoston polun syötteenä ja lähettää pyynnön Vision API:lle Google Cloud Vision -asiakaskirjaston avulla. Poimittu teksti tulostetaan sitten.
Jotta voit käyttää kuvasta purettua tekstiä Google Vision API:lla, sinun on määritettävä ympäristö, luotava AnnotateImageRequest-objekti halutuilla ominaisuuksilla, koodattava kuvatiedosto, lähetettävä pyyntö API:lle ja haettava purettu teksti. vastauksesta. Vision API:n OCR-ominaisuudet mahdollistavat tekstin tunnistamisen ja poistamisen kuvista, mukaan lukien käsinkirjoitus.
Muita viimeaikaisia kysymyksiä ja vastauksia liittyen Tunnistaa ja poimia tekstiä käsinkirjoituksesta:
- Mitä rajoituksia voi ilmetä, kun tekstiä poimitaan monimutkaisista asiakirjoista Google Vision API:n avulla?
- Mikä on luottamustasojen merkitys Google Vision API:n tekstin tulkinnassa?
- Kuinka Google Vision API voi tunnistaa ja poimia tekstiä tarkasti käsinkirjoitetuista muistiinpanoista?
- Mitä haasteita on tekstin tunnistamisessa ja poimimisessa käsinkirjoitetuista kuvista?
- Tunnistaako Google Vision käsinkirjoituksen?