Wie arbeite ich mit mehrsprachigen Daten?
Wenn deine Daten Texte in mehreren Sprachen enthalten, brauchst du das Sprachattribut. In diesem Artikel zeigen wir dir, welche Sprachkürzel licili erwartet und wie du sie in deinen Datensatz einträgst.
Wann brauche ich das Sprachattribut?
Solange deine Feedbacks ausschließlich auf Deutsch sind, musst du dich um das Sprachattribut nicht kümmern. licili erkennt deutsche Texte automatisch und führt darauf alle Analysen aus.
Sobald aber nicht-deutsche Texte in deinen Daten enthalten sind – etwa weil du international Kunden befragst oder öffentliche Reviews aus mehreren Sprachen importierst –, brauchst du das Sprachattribut. Es sagt licili pro Text, in welcher Sprache er verfasst ist, damit Sentimentanalyse und Topic Model die richtigen Sprachmodelle anwenden.
Welches Format brauche ich?
Das Sprachkürzel muss dem Standard DIN ISO 639-1 folgen. Das sind zwei kleingeschriebene Buchstaben pro Sprache. Die wichtigsten Kürzel im Überblick:
de– Deutschen– Englischfr– Französisches– Spanischit– Italienischnl– Niederländischpl– Polnischpt– Portugiesischsv– Schwedischda– Dänischcs– Tschechischtr– Türkisch
Eine vollständige Liste aller Sprachkürzel findest du in der Wikipedia-Übersicht zu ISO 639-1.
Wie hinterlege ich die Sprache in meinem Datensatz?
Füge deinem Datensatz eine zusätzliche Spalte mit dem Namen Sprache oder Language hinzu. Trage für jeden Text das passende Sprachkürzel ein.
Beim Upload weist du die Spalte dann beim Mapping dem Attribut Sprache zu – genauso wie du es für Datum oder Bewertung machst.
Was passiert, wenn das Sprachattribut fehlt?
Wenn ein Text ohne Sprachkürzel hochgeladen wird, geht licili davon aus, dass er auf Deutsch verfasst ist. Bei deutschen Texten ist das also kein Problem – bei einer englischen oder französischen Bewertung würde das Topic Model und die Sentimentanalyse aber unzuverlässig arbeiten. Setze das Sprachattribut also immer dann, wenn nicht-deutsche Texte enthalten sein könnten.
Tipp: Falls du nicht weißt, in welcher Sprache deine Texte vorliegen (z. B. bei öffentlichen Reviews aus dem Internet), können wir über den Support eine automatische Spracherkennung vorschalten. Sprich kurz mit deinem Customer Success Manager, dann prüfen wir, ob das für deine Quellen Sinn macht.
Wir hoffen, diese Anleitung hat dir weitergeholfen. Wenn du weitere Fragen hast, wende dich gerne an unseren Support.