Snowball stemmers on C# ­­­– free download

This is translation of the original post in Russian.

Any human’s activity has some basic things which should be known by any specialist in this field. One of such important and necessary things in computer linguistics is the operation of a word’s reduction to its basic form – lemmatization. This operation makes the aggregation of different forms of the same word to work with their common statistics, searching with any case, etc. possible.

The dictionary based morphological engines make this process the most qualitative. These engines are usually paid for most of languages except English. Also they are often written on C++ or they can have another limits which make their using with C# uncomfortable.

Luckily, the simplified morphological analyzers – stemmers can be used for many research projects (and often for non-research). As a rule, these analyzers don’t use huge dictionaries – only a set of heuristics which allow to make the same string from different forms of a word. It is enough in many cases. For example, the task of thematic texts’ classification can be solved with these simplified analyzers well.
подробнее…

Стеммеры Snowball на C# — free download

В любой области деятельности человека, есть какие-то базовые вещи, которые должен знать и уметь тот, кто считает себя здесь специалистом. Одной из таких важных и нужных вещей в области компьютерной лингвистики, является операция приведения слова к основной форме — лемматизация. Она позволяет объединить различные словоформы одного и того же слова и далее работать с их общей статистикой, искать в любом падеже, числе и т.п.

Наиболее качественно процесс лемматизации производят словарные морфологические движки. Для большинства языков помимо английского, такие движки обычно платны. Либо написаны на C++. Либо есть другие ограничения, которые делают их использование на C# не очень удобным.

К счастью, для многих исследовательских проектов (а иногда и не только исследовательских) вполне подойдут упрощенные морфологические анализаторы — стеммеры. Эти анализаторы, как правило, не тащат за собой больших словарей — только набор эвристических правил, которые позволяют из разных словоформ одного слова получить одну и ту же строку. Во многих случаях, этого оказывается достаточно. Например, для задачи классификации текстов, ничего большего и не требуется.
подробнее…

Go top
Copyright © 2010 iveonik systems Iveonik Systems - All rights reserved - Powered by WordPress