Challenges
논문 한 편을 쓰며 부딪힌 벽들.
- 리뷰어 대응의 주장 범위 조절 — 초기 원고에서는 "ADR을 예측한다"고 강하게 표현했지만, 리뷰 과정에서 "잠재적 ADR 후보를 제안한다"로 톤다운하며 over-claim을 줄였습니다.
- 데이터 누수 차단 — PubChem 동의어 통합과 MedDRA 정규화를 빼먹으면 평가 AUC가 비정상적으로 높게 나오는 함정이 있었습니다.
- 외부 검증 설계 — FAERS는 보고 편향(reporting bias)이 큰 데이터셋이라, 단순 빈도 비교가 아니라 Fisher exact test와 odds ratio로 통계적 유의성을 명확히 분리해야 했습니다.
- 모델 6종 동등 비교 — 토크나이저와 vocab 차이로 임베딩 차원과 분포가 다르기 때문에, 모든 모델을 동일한 평가 파이프라인에 태우고 임계값까지 모델별로 최적화하는 데 시간이 들었습니다.