Waarom voor taalmodellen kiezen - als werkelijke waarde in gestructureerde data zit?
In dit artikel:
Analist John Santaferraro zette op LinkedIn een levige discussie in gang na een besloten sessie van SAP TechEd in Berlijn, waar SAP-cto Philipp Herzig een nieuw onderzoeksproject presenteerde: RPT-1 (Relational Pretrained Transformer). In plaats van nog een tekst-llm te bouwen koos SAP twee jaar geleden bewust voor een ander pad: benutting van de enorme, gestructureerde bedrijfsdata in relationele databases (zoals HANA) en de governance-mogelijkheden om daarop te experimenteren. RPT-1 is het resultaat: een foundation model dat niet op woorden, maar op cellen in tabellen "denkt".
Technisch is RPT-1 gebaseerd op het onderzoekswerk ConTextTab (NeurIPS-paper) en de bijbehorende open-sourcecode (sap-rpt-1-oss). In tegenstelling tot taalmodellen die tokens als woorden gebruiken, behandelt RPT-1 individuele databasecellen als tokens en leert het afhankelijkheden tussen rijen, kolommen en tabellen. Het gebruikt gespecialiseerde embedding-lagen en een tweedimensionale attention-architectuur die afwisselend over kolommen en rijen werkt, zodat relaties tussen kenmerken en tussen records worden vastgelegd onafhankelijk van rij- of kolomvolgorde — cruciaal voor echte tabulaire data.
Benchmarktests op datasets zoals Carte, OpenML en TabReD laten zien dat ConTextTab vaak beter presteert dan andere table-native modellen (zoals TabPFN en TabICL) en in sommige gevallen zelfs kan concurreren met sterke gradient-boosting-ensembles (AutoGluon, CatBoost) op semantisch rijke tabellen. SAP brengt deze architectuur naar productniveau onder de naam RPT-1, in meerdere varianten en met nadruk op tabular in‑context learning: klanten leveren een taaktabel met enkele voorbeeldrijen en het model kan direct voorspellingen doen voor nieuwe records zonder aparte fine-tuning. SAP belooft zo een groot deel van traditioneel machine-learningwerk — data-engineering, modelselectie en tuning — van weken naar uren te reduceren. Een open-weight-variant is al op Hugging Face beschikbaar en er is een web‑playground; bredere beschikbaarheid volgt via SAP’s generatieve-ai-hub.
Kritische noten zijn er ook: ConTextTab/RPT-1 blijft grotendeels onderzoekswerk. Training gebeurde op publieke datasets (T4) en met beperkte rekenkracht (één H100-GPU), niet op echte SAP-productiedata. Dat maakt de aanpak methodologisch interessant, maar nog geen sluitend bewijs voor alle enterprise-scenario’s. Schaalbaarheid bij zeer grote tabellen en extreem veel records is nog een open vraag; klassieke gradient-boosting-methoden en domeinspecifieke modellen blijven voorlopig concurrerend. Daarnaast ontbreekt er nog een groot, openbaar en semantisch rijk tabulair benchmarkarsenaal dat ERP-landschappen echt vangt.
Voor it- en businessteams ligt de praktische uitdaging vooral in architectuur en governance: datatoegang, anonimisatie, modelmonitoring, lineage en compliance moeten kloppen voordat zo’n foundation model in productie kan. Desondanks illustreert RPT-1 een bredere trend: enterprises gaan steeds meer kijken naar domain‑en dataspecifieke foundation models die "de taal van tabellen" spreken, naast of in plaats van generieke tekst-llm’s. Voor organisaties met grote voorraden relationele bedrijfsdata biedt RPT-1 een concrete route om die goudmijn beter te ontsluiten — of het klassieke ml-projecten volledig zal vervangen, zal de praktijk de komende jaren uitwijzen.