Оптимизация для технологии MSN’s RankNet – Секреты RankNet (часть 2/5 )
Все секреты, которые мы узнаем об этой технологии, пришли из открытых патентных заявок для RankNet. Первый патент представляет собой “Метод сканирования, анализа и управления различными типами цифровой информации” который ссылается на концепцию нейронных сетей в своем резюме:
Компьютерные методы описаны в первую очередь для характеристики особой категории информационного контента – например, порнографии. Они позволяют только идентифицировать элементы контента подобных категорий в реальном информационном потоке, таком как веб-страницы, электронная почта или другой цифровой набор данных. Эта технология распознавания содержимого открывает новый класс масштабируемых прикладных систем для управления таким содержимым, включая фильтрацию, классификацию, приоритезацию, отслеживание и т. д. Иллюстрированным примером такого изобретения является программный продукт , который используется в связке с веб-броузером для отсеивания веб-страниц, содержащих порнографию или любой другой потенциально вредный или оскорбительный контент. Целевой набор атрибутов регулярного выражения, такого как слово и/или фраза родного языка, формируется на основе статистического анализа количества образцов наборов данных, характеризующихся как “содержащий” и другого набора образцов, описанных как “не содержащий” выбранную категорию информационного контента. Этот список выражений уточняется применением корреляционного анализа всех образцов или “тренировочных данных.” Затем применяются техники прямой связи нейронных сетей, опять же с использованием реального тренировочного набора данных, для адаптивного присвоения относительных весов каждому из выражений в целевом наборе атрибутов, тем самым формируя ожидаемый список, который имеет высокую степень прогнозирования интересующей категории информационного контента.
Крис Бёргес (Chris Burgess), упоминавшийся в блоге MSN Search Blog, а также ведущий автор статьи “Изучение ранжирования с использование градиентного понижения” (одна из официальных документов о RankNet), был одним из соавторов другого патента, который описывает нейронные сети – “Система и метод для идентификации содержимого и управления информацией соответствует объектам в сигнале.” Резюме патента формулирует:
“Интерактивный анализатор сигналов” обеспечивает инфраструктуру для образцов одного или множества сигналов, таких, как например, один или несколько каналов в одном FM-диапазоне в одном или нескольких географических регионах, чтобы идентифицировать интересующие объекты среди общего содержимого сигналов и ассоциировать атрибуты с этим самым содержимым. «Интерактивный анализатор сигналов» использует алгоритм снятия отпечатков пальцев, т. е. “движок отпечатков пальцев” для извлечения отпечатков из сегментов одного или нескольких сигналов. Эти отпечатки рассматриваются как “отпечатки пальцев” до тех пор пока они уникально идентифицируют сегменты сигналов из которых они были извлечены. Эти «отпечатки пальцев» затем используются для сравнения с базой «отпечатков» известных объектов. А уж затем информация, описывающая идентифицированное содержимое и связанные с объектом атрибуты подается в интерактивную пользовательскую базу данных для просмотра и взаимодействия с информацией, которая является результатом сравнения «отпечатков пальцев» с базой.
Далее: Поведение робота и техника оптимизации (часть 3) »