
국립국어원이 2025년 하반기 새롭게 선보인 언어 데이터 서비스가 학계와 산업계 모두의 시선을 끌고 있습니다.
출처: 연합뉴스
국립국어원은 지난 30여 년간 우리말 규범을 정비하고, 표준국어대사전을 비롯한 다양한 사전을 구축해 왔습니다.
올해는 특히 AI 학습용 언어 코퍼스를 공개하며 ‘디지털 한글 생태계’ 조성에 박차를 가했습니다.
“언어는 데이터입니다. 정확한 데이터를 공개해야 산업도 성장합니다.” – 국립국어원 AI언어과 관계자
이번 코퍼스에는 1990년대 신문 기사부터 2024년 SNS 게시물까지 5억 어절이 포함돼, 자연어 처리 스타트업의 학습 비용을 크게 줄였습니다.
동시에 ‘온라인 가나다’ 서비스도 개편돼, 질문에 대한 평균 응답 시간이 3일에서 24시간 이내로 단축됐습니다.
신규 기능인 ‘맞춤법 실시간 진단’은 사용자가 문장을 붙여넣으면 0.3초 만에 띄어쓰기, 외래어 표기, 높임법을 교정해 줍니다.
교육계 역시 변화에 주목했습니다. 초‧중‧고 교과서 발행사들은 국립국어원 API를 채택해 전자 교과서 내 자동 교정 기능을 구현했습니다.
대학 한국어교육과에서는 새로 제정된 ‘한국어교원 2급 표준 교육과정’에 맞춰 원내 데이터를 활용하는 커리큘럼을 도입했습니다.
기업들도 발 빠르게 연계 중입니다. 한 게임사는 NPC 대사를 자동으로 현행 맞춤법에 맞게 변환하는 모듈을 국립국어원 API와 연동했습니다.
출처: 나무뉴스
그러나 신속한 서비스 확대에 따른 과제도 남았습니다. 개인정보 비식별 및 저작권 이슈가 대표적입니다.
국립국어원은 원문 중 민감 정보를 제거하고, 저작권 협약을 체결한 콘텐츠만을 데이터로 제공한다고 강조했습니다.
또한 외래어 표기법 개정(안)을 두고 “강제는 아니지만 준수가 바람직하다”는 기존 입장을 재확인하며 사회적 합의 과정을 예고했습니다.
전문가들은 국립국어원이 규범 제정 기관을 넘어 공공 데이터 허브로서 기능해야 한다고 입을 모읍니다.
시민 참여 역시 확대됩니다. 오는 11월, ‘내가 만드는 우리말 사전’ 공모전이 열려, 우수 제안어는 정식 표제어로 등재될 예정입니다 😊
한글날 79주년을 맞아 공개된 ‘국어 빅데이터 로드맵 2030’에는 음성 합성, 수어 AI, 방언 아카이브 추진 계획이 담겼습니다.
마지막으로, 국립국어원은 “언어 주권을 지키는 길은 국민과 함께 걷는 것”이라며 데이터 개방과 규범 연구를 병행하겠다고 밝혔습니다.
언어 산업이 급성장하는 지금, 국립국어원이 펼칠 다음 행보가 더욱 주목됩니다 🚀