콘텐츠로 이동
Data Prep
상세

한국 추론데이터 10종 구축 사업 (2026)

항목 내용
국가 한국
주관 과학기술정보통신부, 한국지능정보사회진흥원(NIA)
예산 66억원
기간 2026년
상태 공모 진행중 (2026.04~)

배경

글로벌 AI 경쟁이 모델 크기에서 데이터 품질 중심으로 전환되고 있다. 특히 GPT-o1, DeepSeek-R1 등 추론형 AI 모델의 등장으로, 단순 패턴 학습이 아닌 복합 추론이 가능한 고품질 학습데이터 수요가 급증했다. 한국 정부는 AI 산업의 질적 도약을 위해 LLM과 피지컬 AI 분야를 아우르는 추론 특화 데이터 구축에 나섰다.

목표

  • AI 모델의 사고력(추론 능력) 강화를 위한 고난도 학습데이터 10종 구축
  • LLM 5종 + 피지컬 AI 5종 구성
  • 구축 데이터 전량 공개 (기업, 연구기관, 스타트업 자유 활용)

과제 구성

LLM 분야 (5종)

과제 설명
복합 문서 기반 지식 추론데이터 다중 문서 간 교차 추론
연구 과정 지원 (AI for Science) 과학 연구 워크플로우 추론
한국어 도구 호출(Tool Calling) 추론데이터 한국어 기반 에이전트 행동
웹/GUI 기반 행동 추론데이터 웹 인터페이스 탐색 및 조작
오류 증강 및 교정 추론데이터 오류 패턴 식별/수정

피지컬 AI 분야 (5종)

과제 설명
제조설비 멀티센서 이상 진단 복합 센서 데이터 기반 원인 추론
표면 결함 원인 분석 및 품질 판정 비전 기반 결함 진단
로봇 작업 실패 원인 분석 및 복구 행동 로봇 자율 복구 추론
휴머노이드 행동 생성 물리 시뮬레이션 물리 법칙 기반 행동 계획
비동기 공정 인과성 분석 제조 공정 간 인과 관계

기술스택

  • 데이터 구축: 전문가 라벨링 + 합성 데이터 생성
  • 품질 관리: NIA 데이터 품질 검증 프레임워크
  • 공개 플랫폼: AI Hub (aihub.or.kr)

교훈 및 시사점

  • 추론 데이터의 중요성: 단순 Q&A가 아닌 사고 과정(Chain-of-Thought)이 포함된 데이터가 모델 성능을 좌우
  • 한국어 특화: Tool Calling, 문서 추론 등에서 한국어 데이터 부족 문제를 직접 해결
  • 피지컬 AI 선제 대응: 휴머노이드, 제조 로봇 등 차세대 AI 영역까지 데이터 구축 범위 확대
  • 오픈 데이터 정책: 정부 투자 데이터를 전면 공개하여 생태계 전체의 경쟁력 제고

참고