SASTA Output formaat (SAF)
Het bestand
Een bestand in het SASTA Output formaat representeert de uitingen en annotaties van één transcript. Het bestand wordt opgeleverd als een Excel spreadsheet (.xlsx
).
Kolommen
ID
In deze kolom staat het uitingsnummer van de uiting. Let op: dit zijn alleen de uitingen die geselecteerd zijn voor analyse. De ID
kolom loopt dus altijd van 1
tot <hoeveelheid gemarkeerde uitingen>
.
Level
In deze kolom word de naam van de verschillende niveaus getoond, zie levels.
Unaligned
Deze kolom is bedoeld voor niet-gealigneerde annotaties. Een voorbeeld zijn annotaties die niet bij een specifiek woord of woordgroep horen, maar bij de gehele uiting.
Word1, Word2, ...WordN
De Word
-kolommen zijn bedoeld voor annotaties behorende bij een specifiek woord in de uiting. Wanneer annotaties behoren bij woordgroepen, worden deze genoteerd onder het eerste woord van de woordgroep. De kolommen lopen door tot het aantal woorden van de langste geanalyseerde uiting in het transcript.
Fases
In deze kolom wordt automatisch een opsomming gemaakt van alle fases die horen bij de annotaties van de uiting, in Romeinse cijfers.
Commentaar
In deze kolom kan commentaar worden opgenomen, behorende bij de gehele zin. Voor commentaar over een specifiek woord word het level Commentaar
gebruikt.
Rijen
Eén uiting bestaat uit meerdere rijen, elk beginnende met dezelfde ID. Voor een uiting zijn steeds de Utt
-rij, level
-rijen, en de Commentaar
-rij opgenomen.
Utt
Op deze rij staan de woorden van uiting. Als een woord in het invoerbestand bijvoorbeeld voorzien is van een CHAT-annotatie, wordt deze verwerkt en wordt het woord opgeschoond getoond.
Levels
Annotaties kunnen op verschillende niveaus worden gemaakt.
Voor elk niveau is er een aparte rij opgenomen. Voor TARSP-transcripten is er een uitzondering: het Zc
-niveau komt eenmaal voor per zc-embedding.