[AI 혁명] TabPFN: 스프레드시트를 변혁하는 새로운 예측 모델의 등장

AI 시대의 스프레드시트 예측 혁명: TabPFN이 밝혀낸 새로운 가능성

2025년 4월, 인공지능(AI) 기술이 또 하나의 혁신적인 지점을 돌파했습니다. 독일 프라이부르크 대학교(University of Freiburg), 베를린 보건연구소(Berlin Institute of Health), 프라이어 랩스(Prior Labs), 유럽연합 기계학습 연구기관인 ELLIS Institute가 공동 발표한 논문에 따르면, 새로운 AI 모델인 TabPFN (Tabular Prior-data Fitted Network)은 기계 학습의 가장 난제 중 하나인 '표 형식 데이터 예측' 문제를 놀라운 수준으로 해결했습니다.

전통적으로 스프레드시트와 같이 행과 열로 구성된 구조화된 데이터를 분석할 때는 Gradient Boosted Decision Trees (GBDT), XGBoost, LightGBM, CatBoost 등의 트리 기반 앙상블 모델이 널리 사용되어 왔습니다. 이는 주어진 데이터셋의 구조적 특성과 이질적 변수의 조합을 잘 다루기 때문입니다. 그러나 이런 모델들은 너무 많은 하이퍼파라미터 튜닝 시간이 필요하며 새로운 데이터셋에 적용할 때 유연성이 낮아 전이 학습이 쉽지 않다는 한계가 존재했습니다.

새롭게 등장한 TabPFN은 Transformer 기반 모델로, LLM(대형 언어 모델)에서 사용된 ‘인컨텍스트 러닝(In-context Learning)’ 기법을 표 형태의 데이터에 접목시켜 개발되었습니다. 이는 완전 새로운 접근으로, 대규모 언어 모델이 맥락 내 예시만으로 문제를 해결할 수 있듯, TabPFN 또한 학습된 패턴을 바탕으로 사전 학습 없이도 새로운 데이터셋에서 뛰어난 성능을 발휘할 수 있도록 설계된 것입니다.

TabPFN의 작동 원리: 완전한 구조 이해와 예측의 융합

TabPFN의 핵심은 Tabular 데이터를 위한 완전한 전처리 및 검출 구조를 갖춘 Transformer 아키텍처입니다. 기존 자연어 처리(NLP)에 특화된 Transformer와는 달리, TabPFN은 2차원 공간 속에서 행과 열의 상호작용을 동시에 고려하는 고유의 Attention 메커니즘을 갖췄습니다. 이로 인해 데이터에 존재할 수 있는 다양한 유형—예를 들어 범주형 변수, 숫자형 변수, 결측치, 이상치 등—를 유연하게 처리할 수 있습니다.

또한, 모델 구조 자체가 한 번의 전방 패스(Forward Pass)로 전체 데이터셋의 예측 결과를 생성할 수 있어, 전통적인 딥러닝 모델보다 연산 효율성이 비약적으로 향상되었습니다. 더 나아가, TabPFN은 학습 시 생성된 중간 표현을 캐시(Cache)하여 테스트 세트에서의 예측 속도 또한 매우 빠릅니다.

백만 개 이상의 합성 데이터로 사전 학습된 모델

TabPFN은 놀랍게도 '실제'가 아닌 약 1억 개의 합성(Synthetic) 데이터셋에서 사전 학습되었습니다. 이 접근 방식은 ChatGPT와 같은 언어모델이 문장과 문맥을 학습하듯, TabPFN도 수많은 통계적 패턴을 바탕으로 머신러닝 알고리즘의 핵심 개념을 내재화(internalize)하도록 설계된 것입니다. 이로 인해, TabPFN은 새로운 데이터셋에 대해 별도의 학습 과정 없이도 고성능을 낼 수 있는 능력을 갖추게 되었습니다.

정확히 말하자면, TabPFN은 다양한 기법(ex. SVM, Nearest Neighbor, Deep Neural Networks 등)을 암묵적으로 내포하고 있으며, 상황에 따라 가장 적합한 ‘내부 전략’을 선택하여 예측을 수행합니다. 이건 마치 경험 많은 분석가가 문제 유형에 따라 적절한 알고리즘을 본능적으로 고르는 것처럼 작동하는 모델이라고 할 수 있습니다.

기존 모델 대비 압도적인 성능 우위

TabPFN은 대표적인 AutoML 벤치마크(OpenML-CTR23 포함) 및 다양한 실험용 표 데이터셋에서 XGBoost, LightGBM, CatBoost 등의 최신 기법들을 능가하는 성능을 보였습니다. 특히, 샘플 수 10,000개 미만의 소형 데이터셋에서는 일반 방법보다 수 분~수 시간 이상 빠른 과정으로도 정확도, ROC AUC, RMSE 지표에서 모두 우수한 결과를 보였다는 점이 주목됩니다.

예를 들어 LightGBM은 튜닝까지 수십 시간 이상이 소요될 수 있지만, TabPFN은 몇 초 안에 예측을 완료하는 반면 유사하거나 더 높은 점수를 기록했습니다. 특히 분류(Classification) 문제에서 TabPFN은 정규화된 ROC AUC 점수에서, 회귀(Regression) 문제에서는 RMSE 점수에서 각각 현저한 개선을 입증했습니다.

실전 적용 가능성: 불완전 데이터에 강한 회복력

가장 주목할 실전성은 TabPFN이 결측치가 많거나, 무의미한 피처가 많은, 또는 이상치가 존재하는 데이터셋에 대해서도 안정적인 성능을 유지했다는 점입니다. 이건 얼마나 robust(견고한지)를 의미하며, 실제 기업 및 연구기관 데이터 분석 업무에서 중요한 특성입니다.

보통 신경망 모델은 정제되지 않은 데이터나 현실적인 깨짐(broken data)에 약한 편이지만 TabPFN은 복잡한 조건 하에서도 구조를 잘 이해합니다. 이에 따라 제조, 금융, 의학 등 현실 데이터를 자주 접하는 분야에서 유용성이 매우 큽니다.

데이터 생성과 재활용 임베딩까지: 모든 것이 가능한 AI 시스템

TabPFN은 단지 예측을 수행하는 도구를 넘어서, 실제로 스스로 합성 데이터셋을 생성하거나, 특정 데이터셋 내의 이상치 탐지 및 분포 추정까지 가능합니다. 이로 인해, 데이터 증강(Data Augmentation), 클러스터링, 결측치 보완 등 2차 응용이 가능한 '파운데이션 모델(FM)'의 특성을 갖추었다는 점에서도 깊은 시사점을 줍니다.

이와 더불어, TabPFN이 만들어내는 임베딩 벡터는 재사용(재학습 불필요)이 가능한 수준의 의미망(Semantic Representation)을 가지며, 이를 통해 다양한 다운스트림 작업에 곧바로 활용될 수 있습니다.

향후 전망: TabPFN이 여는 새로운 AI 분석의 시대

TabPFN은 ‘모든 데이터가 여러분의 언어가 된다’는 LLM 철학을 Tabular 영역에 실현한 모델입니다. 그동안 별도로 존재하던 ‘표 데이터 모델링’과 '언어 기반 모델링'이 하나로 수렴되는 시작점에 있다고 볼 수 있습니다. 특히 Data-centric AI, AutoML, Edge-AI 등 다양한 분야에서 TabPFN의 속도와 확장성은 매우 강력한 무기가 될 것입니다.

연구자들은 현재 TabPFN을 더욱 발전시켜 더 대규모 데이터셋에도 효율적으로 작동하게 하고 있으며, 오픈소스로 일부 구현을 공유하여 연구자 및 개발자들이 실무에서 직접 테스트할 수 있게 지원하고 있습니다. 실제 논문은 Nature 지에 게재되었으며, 코드나 설명은 arXiv 및 Github에서 확인 가능합니다.

맺으며: TabPFN은 AI 진화의 현주소이자 미래를 열린다

Tabular Data는 전 세계 정부, 학계, 산업에서도 가장 많이 생성되는 데이터 유형입니다. 수십 년 동안 변화를 거부해 왔던 이 영역에 TabPFN은 Transformer의 막강한 구조로 정면 돌파함으로써 새로운 시대의 AI 예측 및 분석 도구로 떠오르고 있습니다. 또한 스프레드시트와 같이 일상화된 데이터 활용 영역에서 상당한 자동화를 현실화한다는 점에서 활용도는 무궁무진합니다.

이제 우리는 단순한 AI 모델링을 넘어, 데이터를 통해 예측하고 창조하며 이해하는 총체적 AI 환경의 문턱에 서 있습니다. TabPFN은 그 중심에 놓일 자격이 충분해 보입니다.

출처: Marktechpost: Transformers Can Now Predict Spreadsheet Cells without Fine-Tuning (2025)

유튜브: Ung animation

https://youtube.com/@Unganimation-u2j

40대 직장인 인공지능 선생님

(Make닷컴, AI 블로그, AI 영상 제작)