슈퍼브에이아이, 국내 최초 한글 OCR 인공지능 학습용 데이터 780만 글자 공개

슈퍼브에이아이, 국내 최초 한글 OCR 인공지능 학습용 데이터 780만 글자 공개

  • 권혁교 기자
  • 승인 2020.01.30 16:00
  • 댓글 0
이 기사를 공유합니다

한국어의 고유한 특성을 살린 OCR 인공지능 학습용 데이터 세트로서 한글 자모 조합 총 1만1172자를 포함

AI 스타트업 슈퍼브에이아이가 국내 최초로 한글 OCR 인공지능 학습용 데이터 780만 글자 구축에 성공, AI 허브에 공개했다고 30일 밝혔다.

슈퍼브에이아이는 한국 정보화진흥원(NIA)이 주관하는 2019년 한국어 글자체 이미지 AI데이터 구축 사업에 참여하여, 인공지능 개발을 위한 △간판, 도로 표지 등의 이미지 내 Text in the Wild 130만 글자 △인쇄체 280만 글자 △손글씨체 370만 글자 등 총 780만 글자 이미지 데이터를 성공적으로 제작했다. 한국어의 고유한 특성을 살린 OCR 인공지능 학습용 데이터 세트로서 한글 자모 조합 총 1만1172자를 포함한다.

이번에 공개된 데이터 세트는 AI Hub 플랫폼에서 다운로드 가능하다. 이를 통해 누구나 대량의 한글 OCR 학습 데이터를 내려 받아 한글 인식 및 이미지 기반 검색 등의 AI 모델 및 서비스 개발에 활용할 수 있다.

현재 글로벌 기업(구글 등)이 제공하는 OCR 활용 인지 서비스에 한국어로 된 글자체 이미지 데이터 세트가 없어 기관, 기업의 연구개발에 차질이 있었다. 전 세계적으로 전통적인 알고리즘이 아닌 딥러닝 기반 OCR 기술을 사용하는 추세라 한글 글자체에 대한 공개된 학습용 데이터 세트가 필요하다는 게 회사 측 설명이다.

또한 슈퍼브에이아이는 데이터 가공, 관리 및 분석이 가능한 슈퍼브에이아이 스위트(Superb AI Suite)를 도입하여 인공지능 개발에 즉시 사용 가능한 양질의 데이터 세트를 구축했다. 2019년 12월 출시된 기업용 소프트웨어로, 데이터 어노테이션을 쉽게하는 기능과 반자동 어노테이션을 지원하는 AI 모델이 포함된 종합 머신러닝 데이터 플랫폼이다.

김현수 슈퍼브에이아이 대표는 “인공지능 분야에서의 AI 학습 데이터는 대부분 해외에서 제작된 오픈소스 데이터 세트에 의존하고 있어, 국내 시장에 맞는 데이터 세트는 여전히 가뭄상태”라면서 “중요성에도 불구하고 데이터 세트 구축 사업 특성상 막대한 비용과 시간이 소요된다는 것이 가장 큰 이유인데, 앞으로 슈퍼브에이아이가 소프트웨어 혁신을 통해 한국의 AI 산업 발전을 이끌겠다”고 말했다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?

댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.