NLP Text-Vorverarbeitung: Text-Vektorisierung
Damit die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) funktioniert, muss die natürliche Sprache (Text und Audio) immer in eine numerische Form umgewandelt werden. Textvektorisierungstechniken, nämlich Bag of Words und tf-idf-Vektorisierung, die bei traditionellen Algorithmen für maschinelles Lernen sehr beliebt sind, können bei der Umwandlung von Text in numerische Merkmalsvektoren helfen.