업스테이지, 인식 힘든 텍스트도 디지털 변환…새 OCR 모델 공개
장혁수 기자 | 2024.10.17 09:28
OCR 기술은 이미지·스캔된 문서·손글씨·인쇄된 텍스트에서 문자를 인식하고 이를 편집 가능한 디지털 텍스트로 변환하는 기술을 뜻한다. 주로 기업의 문서 관리, 금융 기관의 청구서 처리, 번역 소프트웨어, 자율주행 자동차의 도로 표지판 인식 등 다양한 분야에서 활용된다.
Document Parse는 기존 OCR 기술에서 명확한 인식이 어려웠던 여러 열의 레이아웃이나 테이블 등을 포함한 복잡한 형태의 문서에서도 각 구조와 텍스트 정보를 정확히 분석하여 데이터 자산화를 가능하게 하는 것이 특징이다.
어떤 형식의 문서도 HTML과 같은 구조화된 텍스트 형식으로 전환해 기업이나 기관에서 실제 LLM 활용 시 바로 적용할 수 있다.
업스테이지는 지난 2023년 공식적으로 OCR 서비스를 선보인 직후 같은 해 글로벌 최고 권위인 AI OCR 경진대회 ICDAR에서 아마존과 엔비디아 등의 빅테크를 제치고 1위를 차지한 바 있다.
업스테이지 김성훈 대표는 “Document Parse 는 각 기업이 가진 기존 문서를 가장 정확하게 자산화시켜 LLM을 실제 업무에 즉각 효율적으로 적용할 수 있도록 만드는 최적의 도구”라며, “다양한 비즈니스에서 활용되어 업무 혁신을 현실화할 것”이라고 밝혔다.
뉴스제보
이메일(tvchosun@chosun.com)
카카오톡(TV조선제보)
전화(1661-0190)
Copyrights ⓒ TV조선. 무단전재 및 재배포 금지