Snowball stemmers on C# ­­­– free download

This is translation of the original post in Russian.

Any human’s activity has some basic things which should be known by any specialist in this field. One of such important and necessary things in computer linguistics is the operation of a word’s reduction to its basic form – lemmatization. This operation makes the aggregation of different forms of the same word to work with their common statistics, searching with any case, etc. possible.

The dictionary based morphological engines make this process the most qualitative. These engines are usually paid for most of languages except English. Also they are often written on C++ or they can have another limits which make their using with C# uncomfortable.

Luckily, the simplified morphological analyzers – stemmers can be used for many research projects (and often for non-research). As a rule, these analyzers don’t use huge dictionaries – only a set of heuristics which allow to make the same string from different forms of a word. It is enough in many cases. For example, the task of thematic texts’ classification can be solved with these simplified analyzers well.
подробнее…

Стеммеры Snowball на C# — free download

В любой области деятельности человека, есть какие-то базовые вещи, которые должен знать и уметь тот, кто считает себя здесь специалистом. Одной из таких важных и нужных вещей в области компьютерной лингвистики, является операция приведения слова к основной форме — лемматизация. Она позволяет объединить различные словоформы одного и того же слова и далее работать с их общей статистикой, искать в любом падеже, числе и т.п.

Наиболее качественно процесс лемматизации производят словарные морфологические движки. Для большинства языков помимо английского, такие движки обычно платны. Либо написаны на C++. Либо есть другие ограничения, которые делают их использование на C# не очень удобным.

К счастью, для многих исследовательских проектов (а иногда и не только исследовательских) вполне подойдут упрощенные морфологические анализаторы — стеммеры. Эти анализаторы, как правило, не тащат за собой больших словарей — только набор эвристических правил, которые позволяют из разных словоформ одного слова получить одну и ту же строку. Во многих случаях, этого оказывается достаточно. Например, для задачи классификации текстов, ничего большего и не требуется.
подробнее…

А жив ли сайт?

Помимо того, что сайт должен быть сделан, немаловажно, чтобы он еще и был все время доступен. Для этого существуют различные сервисы мониторинга. Платные обычно предлагают довольно значительный функционал, включая мониторинг из различных точек земного шара. Это все позволяет достаточно быстро среагировать на факты падения сервиса и быстро принять адекватные меры.
подробнее…

Книги, которые разработчик must read

Есть книги, которые, как мы (в Ивеонике) считаем, должен прочитать любой разработчик, который хочет называться профессионалом. Когда к нам приходит только оперившийся девелопер, он уже, как правило, разбирается в основных алгоритмах (поиск, сортировка, базовые операции со строками). Если этого нет, то нужно просто возвращаться за парту или идти по другой стезе.

Но есть кое-что, что приходит только с практикой. А именно, понимание того, что написание программы – это постоянная борьба со сложностью. Разрабатывая все новые методы борьбы с этой сложностью, мы пишем все более и более совершенные (ну ладно, согласен, иногда просто более сложные) программы. Основные вехи этого процесса – переход от машинных кодов к языкам высокого уровня, структурное программирование, функциональное программирование, объектно-ориентированное программирование, компонентное программирование и сервис-ориентированные архитектуры, паттерны проектирования. Конечно, это грубый список, но думаю, что как первое приближение он сгодится.
подробнее…

Вначале была пробка… или эволюция нашей доски для скрама

Одним из внешних атрибутов Agile-разработки, является Scrum-доска. Как и рекомендуется многими людьми, мы решили купить для этого дела специальную пробковую доску:


подробнее…

Go top
Copyright © 2010 iveonik systems Iveonik Systems - All rights reserved - Powered by WordPress