Методы анализа тональности текста - кратоке описание
Анализ тональности текста (отзывов/ классификация типов вопросов и т.д.).
Полезные ссылки:
Анализ тональности текста
Основные зависимости для качества результата:
- Обучающая выборка. Вектора word2vec тренированы на 100 милиардах слов дают точность 81%, тогда как обучение на 400 миллионах слов даёт точность 65%.
- Мощность компьютеров ? Как не парадоксально, но это не имело существенного влияния. Как всегда человеческий фактор, а именно навыки разработчика + вера в используемый метод зачастую играют куда большую роль. Суть в том, что большинство современных алгоритмов родом из 1990-х (нейросетевые модели, двунаправленные рекуррентные сети, LSTM). Скорее всего ещё много интерестных разработок ждут своего часа.
Методы/работы:
- Работа (Kalchbrenner et al, 2014) про верточные нейронные сети . Архитектура содержит семь слоев, и реализует ряд нестандартных для сверточных сетей методов (dynamic k-max pooling).
- Работа (Kim et al, 2014) в которой достигнуты еще более улучшенные результаты. Содержит всего 3 слоя, не использует k-max pooling и вообще имеет самое простое строение. Суть в использовании вектора word2vec, который тренирован на 100 млрд. слов!)
- Методы Word2Vec и Doc2Vec - есть хорошая библиотека gensim (Python), также есть реализация метода Word2Vec на Apache Spark MLlib .
- Методы, основанные на правилах и словарях - основной проблемой является трудоёмкость процесса составления адекватного предметной области словаря.
- Машинное обучение с учителем
- Машинное обучение без учителя
- Метод, основанный на теоретико-графовых моделях
Полезные ссылки:
Анализ тональности текста
Коментарі
Дописати коментар