Методы анализа тональности текста - кратоке описание

Анализ тональности текста (отзывов/ классификация типов вопросов и т.д.).
Основные зависимости для качества результата:
  • Обучающая выборка. Вектора word2vec тренированы на 100 милиардах слов дают точность 81%, тогда как обучение на 400 миллионах слов даёт точность 65%.
  • Мощность компьютеров ? Как не парадоксально, но это не имело существенного влияния. Как всегда человеческий фактор, а именно навыки разработчика + вера в используемый метод зачастую играют куда большую роль. Суть в том, что большинство современных алгоритмов родом из 1990-х (нейросетевые модели, двунаправленные рекуррентные сети, LSTM). Скорее всего ещё много интерестных разработок ждут своего часа.
Методы/работы:
  • Работа (Kalchbrenner et al, 2014) про верточные нейронные сети . Архитектура содержит семь слоев, и реализует ряд нестандартных для сверточных сетей методов (dynamic k-max pooling).
  • Работа (Kim et al, 2014) в которой достигнуты еще более улучшенные результаты. Содержит всего 3 слоя, не использует k-max pooling и вообще имеет самое простое строение. Суть в использовании вектора word2vec, который тренирован на 100 млрд. слов!)
  • Методы Word2Vec и Doc2Vec - есть хорошая библиотека gensim (Python), также есть реализация метода Word2Vec на Apache Spark MLlib .
  • Методы, основанные на правилах и словарях - основной проблемой является трудоёмкость процесса составления адекватного предметной области словаря.
  • Машинное обучение с учителем
  • Машинное обучение без учителя
  • Метод, основанный на теоретико-графовых моделях

Полезные ссылки:
Анализ тональности текста


Коментарі

Популярні дописи з цього блогу

Минимальные требование для кластера Hadoop(with Spark)

Apache Spark - основные команды

Apache Spark Resource Management и модель приложений от YARN