В общем смысле категоризация представляет собой процесс распределения различных данных по категориям (или тематическим группам) на основе смысловой близости.
Категоризация является достаточно трудоемким видом деятельности, требующим много ресурсов и времени. Поэтому единственным выходом является ее автоматизация. При этом категоризация может быть управляемой (supervised) и автономной (unsupervised). В первом случае предполагается вмешательство внешних факторов. Например, результаты категоризации могут быть скорректированы в лучшую сторону человеком. Во втором случае процесс распределения информации по группам происходит независимо от какого-либо вмешательства. Решение о выборе типа категоризации принимается исходя из поставленных задач. Например, требуется сделать этот процесс полностью автономным и только пользоваться результатом категоризации или же важно учитывать мнение эксперта для большей надежности.
В крупных корпоративных системах предпочтение отдается именно автономной категоризации. Это вполне логично, поскольку специалист даже высокого класса не сможет выдержать большой нагрузки. Содержание же выделенного отдела не представляется оправданным ни с экономической точки зрения, ни с точки зрения надежности и безопасности. В этих условиях особое значение приобретает эффективность автоматической категоризации.
Подробнее о методах категоризации, понятии "онтологии", а также о категоризации на основе онтологий читайте в статье Натальи Ефременко, ведущего лингвиста-аналитика компании Perimetrix
По вопросам размещения рекламных материалов в журнале обращайтесь к координатору проекта "Информационная безопасность" Наталье Рохмистровой (rohmistrova@groteck.ru).
На фото – Наталья Ефременко