본문 바로가기

한글

[데이터 리뷰] AIHUB(음성/자연어) - 한국어 SNS 대화 데이터 데이터 리뷰 : 데이터 대신 읽어드립니다! #27 AIHUB(음성/자연어) - 한국어 SNS 대화 데이터 코로나19의 영향으로 언택트 시대가 되면서 점점 온라인상의 대화가 증가하고, 비대면 회의, 상담, 업무 등이 증가하게 되었습니다. 이렇게 의사소통이 대화 음성이나 텍스트로 이루어짐에 따라 관련 대화 데이터도 급속도로 증가하게 되었는데요, 이러한 데이터의 활용성을 높이기 위해 적절한 대화 처리 기술의 도입이 요구되고 있다고 합니다. 이와 관련해서 AIHUB에서는 한국어 구어체 텍스트 기반의 자연어처리 AI 기술 개발을 목적으로 한국인의 일상 대화 메신저 채팅 데이터를 구축한 '한국어 SNS 대화' 데이터를 제공하고 있습니다. 따라서 이번 데이터 리뷰기에서는 이 데이터가 어떻게 이루어져 있는지 살펴보고,.. 더보기
[데이터 리뷰] AIHUB(음성/자연어) - 한국어 대화 요약 데이터 데이터 리뷰 : 데이터 대신 읽어드립니다! #25 AIHUB(음성/자연어) - 한국어 대화 요약 데이터 코로나19의 장기화로 언택트 시대가 됨으로써, 인터넷 또는 sns 메신저를 통해 비대면 의사소통의 수요가 매우 증가했는데요, 이로 인해 온라인 상에 축적되는 의사소통 관련 텍스트 데이터가 엄청난 솓도와 규모로 축적되고 있다고 합니다. 하지만 이렇게 많은 텍스트 데이터를 본문 그대로 사용하여 활용하자면 그 양이 많기 때문에 대화 데이터의 활용성을 높이기 위해서는 대화 요약 기술의 도입이 요구된다고 합니다. 이와 관련해서 AIHUB에서는 뉴스, 기사 등의 문어체에 비해 생략이나 변형이 많고, 대화의 문맥을 고려해야 할 특수성이 있는 대화 요약 기술 개발을 위한 학습 데이터 구축을 목적으로 한 '한국어 대화.. 더보기
[데이터 리뷰] AIHUB(비전) - 한국어 글자체 이미지 데이터 데이터 리뷰 : 데이터 대신 읽어드립니다! #23 AIHUB(비전) - 한국어 글자체 이미지 데이터 차량 번호판 인식 또는 문서를 사진 찍으면 글씨가 자동으로 인식되는 서비스 등을 한 번쯤은 사용해보셨을 수 있는데요, 이러한 기술 모두 인공지능이 글자 이미지를 학습하여 해당 글자를 인식하게 되는 기술입니다. 이러한 기술은 특히 종이문서를 디지털화하여 업무처리를 자동화하거나 시각장애우를 위한 서비스 개발을 위해 많이 연구되고 있다고 합니다. 이와 관련해서 인공지능 빅데이터 플랫폼인 에서는 현대 한글 11172자를 가장 많이 활용하는 폰트 50종을 선정하여 해당 글자체의 이미지와 인공지능 글자 인식을 위한 학습용 데이터 셋인 '한국어 글자체 이미지' 데이터를 제공하고 있습니다. 그렇다면 이번 데이터 리뷰기에.. 더보기
[에어] InceptionV3으로 한국어(한글) 이미지 캡셔닝(Image Captioning) 모델 만들기 (파이썬/Colab) 에어 프로젝트 #6 InceptionV3으로 한국어(한글) 이미지 캡셔닝(Image Captioning) 모델 만들기 만약 인공지능이 경기장에서 축구를 하고 있는 사람의 이미지를 보고 '사람이 경기장에서 축구를 하고 있습니다' 또는 '경기장, 사람, 축구, 운동'과 같이 관련 단어나 문장을 자동으로 생성해준다면 어떠할까? 이러한 기능이 활성화된다면 시각장애인에게 도움을 줄 수도 있을뿐더러 데이터 검색, 스포츠 중계, 미술 치료 등 정말 많은 분야에서 활용될 수 있을 것이다. 이렇게 인공지능이 이미지를 보고 관련 단어나 문장을 만드는 것을 '이미지 캡셔닝(Image Captioning)' 이라고 하는데, 이 분야는 인공지능의 Text Generation의 한 분야이기도 하다. 또한, 이미지의 특징을 학습한.. 더보기