Очередной шажок в создании универсального переводчика...

"ABBYY попыталась реализовать полный синтаксический и семантический разбор текста, решив те проблемы, на которые у компьютерных лингвистов сорок лет назад не хватило сил и вычислительных мощностей. В результате появилась Compreno — система понимания, анализа и перевода текстов на естественных языках. Она включает в себя описание глубинной структуры языка — соотношение используемых в нем смыслов и взаимосвязи между ними. Глубинная структура универсальна для всех языков, поскольку во всех культурах люди используют примерно одни и те же предметы и совершают одни и те же действия. Ее можно представить в виде дерева, толстые ветви которого — общие понятия, а тонкие — понятия более специфические. Например, понятие «стол» относится к родительской категории «мебель», оно может сочетаться с понятиями «собрать», «сидеть за», «быть зачатым на», «дубовый», «дешевый» и т. д. Фактически ABBYY создала универсальный синтетический язык, на который можно перевести текст с любого естественного, а также решить обратную задачу, что необходимо для перевода текстов с одного естественного языка на другой.

На универсальную семантическую модель языка накладываются уникальные для каждого языка морфология и синтаксис. Система анализирует текст и выстраивает дерево связей, с его помощью понимая смысл каждого слова с учетом контекста. Например, наличие в тексте «стола» придает «стулу» совсем другое значение, отсылающее к той же родительской категории, чем контекст медицинских терминов. А отличия в смысле выражений «знать всех местных» и «вся местная знать» невозможно понять без анализа морфологии.

Полнота описания семантики, морфологии и синтаксиса проверяется на внутренней системе статистического анализа. ABBYY собрала гигантский объем корпусов — специальным образом размеченных текстов, на которых осуществляются проверка и обучение системы."http://expert.ru/expert/2014/16/do-mashinyi-nakonets-doshlo/

Ох, сразу лезет в голову "лектон" - еще античное понятие.http://www.gumer.info/bibliotek_Buks/Culture/Los5/11.php, но это так, к слову.

Обращу внимание на очень важный, хотя и не заметный с первого взгляда момент в статье:
"Кроме того, появившиеся в 2000-х годах онлайновые переводчики, пусть не очень качественные, но бесплатные, заставили нас изменить стратегию коммерциализации». Google Translate занял нишу быстрого понимания: люди, которым время от времени нужно понять примерный смысл иноязычного текста, не готовы платить за это, и бесплатный статистический перевод является сильным конкурентом. Из наиболее понятных для коммерциализации остались ниши профессионального перевода и интеллектуального поиска. Технологически поиск проще перевода, а его рынок достаточно емкий и растущий. Именно поэтому поиск был выбран первым проектом для реализации."

Дело не столько в рыночных вопросах, сколько в универсальности создаваемого продукта. То есть уровень квазимышления программы таков, что её можно использовать не только в качестве переводчика, но и в другом (не суть важно каком) качестве.
Делали трубы и насосы, для откачки воды из угольных шахт, а попутно убили водоносов в городах - ничего не напоминает?
Создаются продукты, которые можно применять довольно широко - и раз так, то она начнут вышибать старых работников с их мест.
Создали модель понимания текстов? Да за это нобелевку давать надо :) А представлять ещё один статистический переводчик прорывом - это банальный маркетинг... :)))))))))) Так что про толмачи будут пользоваться спросом, причем всегда... :)))))))))))))
Это да - тут не спорю, в статье куча пиара.
Я говорил именно про универсальность.
У очень многих людей в голове картинка, что программы всегда были и будут узкофункциональными. Условно говоря "ворд" - это такая печатная машинка. Точка.
Но ведь - нет так.
Универсальной семантической системы языка не существует, а по современным представлениям (например, теория речевой деятельности, или разработки Щедровицкого о мыследействии) она не может быть создана, так как в общении - или если хотите образовании и предъявлении смыслов - используется значительное число невербальных элементов и гипертекста, которые очень сложно впихнуть в алгоритм. Иными словами семантическая система выходит за рамки языка и лингвистики. Что касается корпусов текстов, которые компания скупала в течение более, чем 10 лет, то это просто сбор материала для статистического переводчика, но тут они опоздали - Гугл двинулся вперед. Что касается интеллектуального поиска, то мне, честно говоря, жаль работника компании, который ориентируется на поиск в Интернете. А специализированные базы данных структурированы и такого поиска не требуют... АВВУУ в конце 1980-х начале 1990-х скупила за копейки создававшиеся по 30-40 лет бумажные словари, а теперь хочет менее, чем за 20 лет сделать прорыв? Так не бывает :)))
Я не хуже вас понимаю, что для универсального переводчика проще создать искусственный интеллект с картиной мира - вот тогда будет переводчик вполне адекватный. И видеокартинку попутно сможет обрабатывать в режиме реального времени, чтобы понимать её значения...
Только между полной немотой и нормальным разговором - куча переходных ступенек. Гугл сейчас хорошо утвердился на одной из них.
Каждая следующая ступенька означает не просто усовершенствование разговора, но универсальность применения продукта (второй раз об этом говорю).
Да, эти ребята вполне могут "гнать туфту", но принцип не изменится.
/ что касается структурированности профессиональных баз данных... Ох, как тут бывает весело с этой структрированностью :(
Универсальность? Посмотрим-послушаем :) Обычно если требуется много перевода, то очень быстро понимают, что проще и дешевле нанять переводчика, чем изучать программу :))) А насчет баз данных - какие составители, такая и база. Сколько не пытались наши юристы экономисты в Интернете шарить, консультант+ оказывался лучше... А в базах данных деталей или запчастей и в реале особого порядка нема ;)))
Почитал, загорелся.

Жалко, ABBYY пока не даёт попробовать продукт без регистрации.
И вообще не пытается создать альтернативу Гуглю и Яндексу - было бы своевременно и уместно.
С днем рождения!
Счастья, любви и здоровья!!
Новых книг и больших тиражей!!!