AI 말평 경진대회 - 대화 맥락 추론(가 유형)에 참가중

2024. 7. 4. 05:58인공지능

24년 7월 1일부터 8월 23일까지 AI말평 경진대회가 있습니다. 
총 4개 부문으로 참가 가능한데 일단 대화 맥락 추론(가 유형)으로 참가중입니다.

 
가 유형은 국립어학원에서 제공한 모델 및 데이터로만 훈련 시켜서 점수를 매기는것이고 나 유형은 국립어학원에서 제공한 모델 + 데이터 + 외부 데이터(증강 데이터 포함) 까지 합쳐서 훈련시키는것입니다.

나 유형은 데이터셋을 외부에서 찾거나 만들어야하므로 손이 더 갑니다. 그리고 라이선스가 있는 데이터셋이라면 그 책임은 본인이 져야된다는 부담감도 있으므로 저는 가 유형만 참가하려고 합니다.

리더보드에 종료일 기준 상위 1위부터 5위까지 들은 참가자는 나중에 오프라인으로 PPT발표까지 합친 최종 점수를 받게 됩니다. 일단 리더보드 1~5위에 들어야만 유의미한 결과라고 할 수 있겠습니다.
 

순위 및 점수

 

대화맥락추론(가 유형)

1. dev 데이터셋 / 1eq 학습한 mark001을 제출했습니다. 70점으로 꼴찌를 기록했네요^^;;

mark001

2. train 데이터셋 / 5eq 학습한 mark002를 제출했는데 역시 학습량이 많다보니 mark001보다 15점 오른 85.6점을 기록했습니다. 1등이 92.8인데...갭이 꽤 있습니다. 에폭수를 늘린다고해서 점수가 더 좋아질거 같진 않은데 1등은 어떤 마법을 부린걸까요.ㅠㅠ

mark002

3. train + dev / 5eq으로 학습한 mark003은 점수가 쬐에에에끔 올라서 등수가 4등이 되어버렸다. 데이터셋 보강이 이렇게 직접적인 성능에 좌우하는구나...아니면...그냥 랜덤으로 잘된거 걸린거가 싶기도 하고. 어쨌던 5등안에만 들면 상금이 눈앞이다. ㅋㅋ

mark003

 

 

일상대화요약(가 유형)

1. train 데이터셋 / 5eq 학습한 mark001을 제출했습니다. 57.3점으로 3등을 했습니다. 생각보다 등수가 높아서 놀랬네요. 하지만 점점 치고 올라는 사람들이 많을거라고 생각이 됩니다. dev 데이터셋을 추가한 mark002를 준비해야겠습니다.

mark001