Data Curation?

데이터 큐레이션이란?

데이터 큐레이션은 데이터 수집과 정제에서 어노테이션과 분류, 학습용 데이터 생성 등 데이터의 활용 가치를 높이기 위한 모든 활동을 의미 합니다. 데이터 기반의 심층 분석과 기계학습을 위해서는 대규모 데이터의 확보뿐 아니라 기계가 읽고(readable), 학습하고(learnable), 의미 이해 가능한(understandable) 형태로 가공 되어야 합니다. 데이터믹시의 데이터 큐레이션 서비스는 솔트룩스 20년의 데이터 품질관리와 기계학습 경험이 축적된 세계 최고 수준의 데이터 서비스를 제공합니다.

[ 데이터 사이언스를 위한 데이터 큐레이션 6단계 ]
Data Curation Use-cases

데이터 큐레이션 사례

  • 웹/소셜 데이터 수집, 정제
    수천 개의 웹/소셜 데이터 소스로부터 하루
    수백만 데이터 수집, 추출과 실시간 분석
  • 음성 인식/합성 데이터 구축
    20개국 이상의 다국어와 지역별, 성별
    나이별 음성 인식과 합성을 위한 데이터 구축
  • 영상/이미지 데이터 어노테이션
    DNN기반 이미지, 영상 인식 서비스와
    자율자동차 구현을 위한 고품질 어노테이션
  • 자연어처리 코퍼스 구축
    심층 자연어처리, 의미이해를 위한 대규모
    고품질, 다국어 코퍼스(말뭉치) 구축
  • 질의응답, 대화 코퍼스 구축
    Seq2Seq과 IRQA 기반의 심층 질의응답
    시스템 및 대화 엔진 구현을 위한 코퍼스
  • 지식그래프/온톨로지 구축
    인공지능 고객 상담시스템, 심층 질의응답,
    NLU와 의미분석을 위한 지식 베이스 구축
  • 다국어 자동번역 코퍼스 구축
    번역메모리, NMT 기반의 자동번역 엔진
    구현을 위한 다국어 병렬 코퍼스 구축
  • 감성분석용 학습 데이터 구축
    소셜 및 고객 상담, 민원 데이터로부터
    감성 분석 모델의 생성을 위한 학습 데이터
  • 오픈 데이터 수집, 변환과 통합
    공공데이터를 포함한 오픈 데이터의
    수집, 변환, 통합과 LOD 퍼블리싱
  • 공간 데이터 통합과 분석
    공간데이터의 RDF 변환과 통합,
    센서, 교통, 관광 등 다양한 데이터 연계
  • 과학기술 데이터 큐레이션
    논문, 특허, 보고서의 그래프, 테이블,
    설명문으로부터 데이터 추출과 변환
  • 헬스케어 데이터 변환, 통합
    EMR, EHR 등의 의료데이터 통합과
    표준(SNOMED 등) 변환, 그래프 마이닝
The Power of DataMixi

데이터믹시 큐레이션 서비스 특징

데이터믹시의 데이터 큐레이션 서비스는 지난 20년간 솔트룩스의 인공지능 연구과 제품 개발을 통해 누적된 대규모, 고품질 데이터 수집, 필터링 및 어노테이션 노하우가 집약되어 있습니다. 특히, 세계 최고 성능의 데이터 수집 플랫폼인 ‘토네이토’와 자체 보유한 국내외 전문 큐레이션 센터와 인공지능 연구소의 기술 지원을 통해 세계 최고 수준의 데이터 큐레이션 서비스를 제공합니다.

  • 0120년간 축적된 국내 최고의 AI 시스템 개발 경험
  • 02세계적 기업들이 만족한 데이터 큐레이션 서비스
  • 0310억건 이상의 초 대규모 데이터 큐레이션 사례
  • 04세계 최고 성능의 데이터 수집 플랫폼 (토네이도)
  • 05사람과 기계의 협력 – 이중나선 방법론
  • 06글로벌 큐레이션 센터와 인공지능 연구소 운영
  • 07세계적 파트너십과 크라우드소싱 통한 경제성
Quality of Training Data

학습 데이터의 품질

Garbage-In, Garbage-Out!빅데이터에 대한 관심이 크게 증가하던 초기에는 소위 데이터 양이 많으면 품질이 커버될 수 있다는 “양질 변환”이 가능하다 믿어졌었습니다. 그러나 글로벌 규모의 시장 및 경쟁자 분석, 위험 조기 감지, 투자 예측/관리 등의 대부분 심층분석에서는 데이터 양 만큼이나 그 품질이 더욱 중요함이 확인되고 있습니다. 특히, 딥러능을 포함한 기계학습 기반 인공지능 시스템 개발에서는 대규모 데이터 확보뿐 아니라 99.9% 이상의 정확도를 가지는 초고품질 학습 데이터의 확보가 더욱 중요해 지고 있습니다. (자율주행을 위한 이미지 어노테이션, 자연언어처리를 위한 말뭉치 등)

[ 솔트룩스의 CNN기반 이미지 인식 품질 평가 사례 ]
Human in the Loop

휴먼 인 더 루프

상용 수준의 실용적 인공지능 시스템 구현을 위해서는 모델의 높은 정확도뿐 아니라 기계학습을 위한 총 비용을 낮추는 것이 핵심 성공 요소가 됩니다. ‘Human-in-the-loop’는 기계학습 과정에 사람이 적절하게 개입함으로 비용을 낮추고 품질을 향상시키기 위한 방법론을 총칭합니다. 데이터믹시의 데이터 큐레이션 서비스는 ‘이중 나선 방법론’에 기반한 Human-in-the-loop’를 구현하고 데이터 큐레이션 센터의 기계학습 전문가와 글로벌 큐레이션 센터 및 크라우드 소싱을 통해 최적의 기계학습 프로세스 구현을 지원하고 있습니다.

Active Learning

엑티브 러닝

이미지인식, 음성인식을 포함한 다양한 분류, 추천 등의 실용화된 기계학습(딥러닝) 모델들은 대규모, 고품질의 레이블된 학습 데이터를 필요로 합니다. 고품질 대규모 레이블 데이터를 확보하기 위해서는 막대한 비용이 듭니다. Active Learning(능동학습)은 레이블이 없는 대규모 원시 데이터로부터 교사학습에 최적화된 레이블 데이터를 반복적으로 확보함으로 낮은 비용으로 지능형시스템 구현하기위한 데이터 큐레이션 및 기계학습 방법입니다. 데이터믹시는 솔트룩스가 20년간 축적해온 인공지능 시스템 구현을 위한 Active Learning 경험을 데이터 큐레이션 서비스에 반영하고 있습니다.