Trükkök a hatékony szövegosztályozáshoz (FastText) az olvasási jegyzetekhez

Bag Tricks Efficient Text Classification Reading Notes



Cikkkönyvtár

FastText szó vektor előny

  1. Nagy mennyiségű adat + hatékony edzéssebesség: alkalmas az edzés sebességére, különösen a mélységi modellhez képest, a fastText lerövidítheti az edzés idejét néhány napról néhány másodpercre, és nem igényel GPU-t.
  2. Támogatás a többnyelvű kifejezéshez: Morfológiai felépítésével a fastText úgy tervezhető, hogy több nyelvet támogasson, beleértve az angol, a német, a spanyol, a francia és a cseh nyelvet. Ezenkívül egyszerű és hatékony módszert is tartalmaz az alszöveg információinak beépítésére, ami nagyon jó, ha olyan szövegekben gazdag nyelvben használják, mint a cseh, ami szintén bizonyítja a jól megtervezett karakter n-grammi jellemzőit. A gazdag szókincs-reprezentáció fontos forrása. A FastText teljesítménye lényegesen jobb, mint a népszerű word2vec eszköz, és jobb, mint a jelenlegi korszerű szókincs-jellemzés.

Ezen túlmenően, a Facebook hivatalosan nyílt forráskódú gyorsszöveges kód, közvetlenül, nagyon kényelmes.
projekt címe
A fasttext mellett felügyelt osztályozási feladatokhoz is használható. Képezhet felügyelet nélküli szóvektorokat is .