На выставке Netсom▓96 московская фирма CompTek впервые продемонстрировала Яndex, семейство лингвистических продуктов и технологий, в том числе:
- Яndex-Web ≈ средство поиска в Internet, способное индексировать русскоязычные информационные серверы и обеспечивать интерфейс к известным поисковым системам. В частности, на выставке демонстрировалось взаимодействие с национальным сервером новостей и системой AltaVista корпорации Digital.
- Яndex.Site ≈ функция быстрого поиска на собственном сервере заказчика.
- Яndex-Intra ≈ система индексирования и интеллектуального поиска документов в корпоративной сети.
- Яndex-Server ≈ модуль морфологического анализа, встраиваемый в системы офисного документооборота и базы данных.
В связи с ростом количества русскоязычных Web-серверов и развитием Internet-подобных intranet-сетей вопрос индексации (проще говоря, быстрого поиска) нужных слов в русскоязычных текстах становится все более актуальным. Лингвистические продукты фирмы CompTek созданы с учетом морфологии русского языка, т. е. способны учитывать возможные изменения окончаний, суффиксов русских слов. Такая проблема характерна именно для русского языка. Для хорошего распознавания английского текста достаточно использовать шаблоны и ограниченное количество простейших функций, детально описанных в соответствующей литературе. Алгоритм морфологического анализа, реализованный в продуктах Яndex, работает на базе морфологического словаря объемом 120 тыс. слов и включает в себя функции нормализации (приведение к форме единственного числа именительного падежа), поиска незнакомых слов и выявления так называемых омоформ (различных по смыслу слов, имеющих одинаковое написание в некоторых своих формах).
Комментариев нет :
Отправить комментарий