Объектно-ориентированный поиск: объяснение эволюции поиска информации

Мы редко задумываемся о молниеносной скорости современного доступа к информации. Попробуйте представить себе время, когда ответы жили только в библиотеках – сейчас это кажется архаичным.

Инструменты поиска стали настолько мощными, что способны улавливать смысл ваших вопросов, а не только отдельные слова. Эта возможность является результатом перехода от поиска по ключевым словам к поиску, ориентированному на объекты. Хотя это может показаться сложным, сегодня мы разберем его.

Представьте себе упрощенный мир, в котором веб-сайты заменены книгами, а ответы ищет команда из миллиона преданных своему делу сотрудников. Эта аналогия поможет нам понять системы, лежащие в основе поиска объектов, а вы по-новому оцените скорость и точность, которыми мы наслаждаемся сегодня.

Благодаря этому упражнению вы поймете:

Почему поисковые системы начали использовать сущности: какие проблемы они решили?

Внутренняя работа графа знаний: как поисковая система заполняет и использует информацию из графа знаний? Как это может улучшить результаты поиска?

Как авторитетная тема может еще больше повысить возвращаемые результаты?

Практические стратегии SEO: как оптимизировать контент для новых условий.

Давайте создадим поисковую систему на основе сущностей: ваша библиотека h2>

Представьте, что вы отвечаете за огромную библиотеку с тысячами книг и доступом к миллиону прилежных сотрудников. В отличие от обычной библиотеки, клиенты хотят получить ответы на свои вопросы, а не искать книги, которые можно прочитать от корки до корки.

Клиенты постоянно подходят с вопросами (запросами), жаждут ответов. Ваша задача — как можно быстрее найти нужную им информацию.

Чтобы ваша библиотека была успешной, вам необходимо предоставлять более качественные ответы, которые экономят время клиентов, чем другие библиотеки.

Версия 1 вашей библиотеки: возврат на основе заголовков

Предположим, кто-то спрашивает: «Как быстро самое быстрое животное»?

Если бы вы были традиционной библиотекой, вы бы начали со сканирования заголовков в надежде найти совпадение. Клиент, скорее всего, получит стопку книг, и его задачей будет прочитать их и попытаться найти ответ.

Этот процесс может занять несколько часов. Не говоря уже о том, что могут быть книги получше, которые просто не вернут, потому что их названия слишком не связаны между собой.

Представляем инвертированный индекс

Вы решаете, что этот процесс слишком медленный и может стать проблемой для ваших сотрудников. Чтобы ускорить процесс, вы привлекаете свою миллионную рабочую силу для создания комплексного индекса.

Вместо того, чтобы сосредотачиваться на целых книгах или названиях, как в исходном указателе, они каталогизируют каждую отдельную страницу. Каждый работник тщательно записывает каждое слово на странице и его местоположение.

Результатом является так называемый инвертированный индекс. Структура выглядит следующим образом: 

Теперь, когда покупатель спрашивает: «Какое животное самое быстрое?» ваша команда просматривает индекс, определяет «самый быстрый» и «животный», предоставляя список релевантных страниц и любую страницу, которая есть в обоих списках.

Это похоже на традиционную поисковую систему: мы находим ключевые слова, но еще не понимаем их более глубокий смысл.

Теперь клиент получает список от сотен до тысяч страниц, которые могут содержать ответ. Это экономит клиенту много времени, поскольку он может перейти на соответствующие страницы в надежде найти ответ.

Изолирование объектов: помимо ключевых слов

Наши инвертированные индексы стали большим шагом вперед, сэкономив время как вашей команде, так и клиентам.

Слухи о вашей улучшенной системе распространяются, и вскоре посетители выстраиваются в очередь у дверей.

Однако начинают возникать жалобы на нерелевантные результаты и фактические ошибки. Стремясь к совершенству, мы понимаем необходимость решения этих проблем.

Проблемы

Слово типа «яблоко» вызывает ошеломляющую реакцию: рецепты, наука и все, что угодно, возвращается. Как мы можем решить эту проблему?

Это сложная проблема, и нам нужно будет обучить ваших сотрудников нескольким различным подходам.

Первый подход, который может иметь смысл, — это научить сотрудников понимать контекст и различать (устранять неоднозначность) несколько значений слова. Например, если за словом «Apple» следует «компьютер» или «iPhone», это означает другой объект, чем тот, который находится рядом с «пирогом» или «деревом».

Хотя использование контекстных подсказок — мощный подход, он обманчиво сложен. Вашим сотрудникам необходимо научиться распознавать тонкие сигналы, которые раскрывают истинное значение объекта в окружающем тексте. Это непростая задача, требующая тонкого понимания языка и предметной экспертизы, на повторение которой машинам могут потребоваться годы.

Чтобы эффективно использовать контекст для различения значений слов, мы должны сначала создать надежную основу, которая позволит нашим сотрудникам реорганизовать индекс.

Вот три шага, которые мы достигнем и обсудим ниже: 

Руководство библиотекаря. Нам нужна четкая система, которая поможет вашим сотрудникам понимать контекст. Они должны уметь определять разные значения одного и того же слова и соответственно собирать книги, глядя на окружающие слова. Это означает, что нам нужен подробный каталог того, какие окружающие слова указывают на какие сущности. Чтобы добиться этого, нам нужно будет начать записывать окружающие слова и объекты, которые, по нашему мнению, связаны с ними, а затем сравнить это с графом знаний, который мы построим следующим.

Составление диаграммы коллекции.Визуальная карта этих объектов и их взаимоотношений будет иметь неоценимое значение. Ваши сотрудники будут использовать эту диаграмму для установления связей, улучшая качество книг, которые они предлагают читателям. Идентифицировав сущность и просматривая ее атрибуты, мы можем использовать эту информацию позже для расширения всего нашего процесса.

Реорганизация полок. Наконец, как только у нас будет граф знаний, подробная карта, на которой окружающие слова дают ключ к разгадке личности объекта, нам нужно будет обновить вашу библиотеку и индекс. Вместо того, чтобы полагаться только на традиционные термины, мы сгруппируем книги по «сущностям» — ключевым людям, местам, вещам и идеям, которые они обсуждают.

Шаг 1. Создание руководства

Ваши сотрудники будут обучены следующим трем шагам, которые помогут понять, какой объект используется в тексте: 

Окружающие слова. Точно так же, как поисковые системы анализируют ближайшие слова, ваши сотрудники будут просматривать предложения вокруг слова «яблоко». Похоже ли оно на такие слова, как «пирог», «выпечка» или «рецепт»? Это наводит на мысль о кулинарном яблоке.

Жанр книги. Общая категория книги дает важные подсказки. Если это учебник истории, слово «яблоко» может относиться к исторической личности (например, к Исааку Ньютону и его открытию, вдохновленному яблоком). В научно-фантастическом романе это могла бы быть даже футуристическая планета!

Структура предложения. Сотрудники научатся обращать внимание на то, как используется слово «яблоко». Это существительное («Яблоко упало») или прилагательное («Ее щеки были яблочно-красными»)? Это помогает им различать фрукты и другие значения.

Со временем эти наблюдения составят основу вашего путеводителя. Это может включать в себя:

Список слов с несколькими значениями, например «яблоко».

Общие фразы и контексты, передающие определенное значение (например, «яблочный пирог» = еда).

Ссылки на тематические словари для углубленного изучения.

Как и поисковые системы, эта система не идеальна. Сотрудники по-прежнему будут сталкиваться с двусмысленностью, но руководство значительно увеличивает их способность идентифицировать правильный объект на основе контекста.

Это руководство можно затем использовать для выявления новых объектов и связывания существующего текста с уже существующими объектами (так называемое связывание объектов).

Шаг 2: Создание базы знаний (подсказка: мы не будем создавать ее с нуля) 

Использование существующих знаний

Создание всеобъемлющей базы знаний с нуля будет непростой задачей. К счастью, такие ресурсы, как энциклопедии, служат ценной основой.

Как и Google, мы можем использовать существующие источники знаний, такие как DBpedia. DBpedia предлагает хорошо структурированные категории и атрибуты (считайте их специализированными тегами), что дает нам преимущество в организации знаний вашей библиотеки.

Ключевое решение, которое необходимо принять в отношении вашего графа знаний, — это то, каковы онтологии. Мы постараемся разработать онтологии, соответствующие типам запросов, которые, как мы видим, поступают в вашу библиотеку.

Связывание сущностей: искусство соединения

Затем ваши неутомимые работники должны преобразовать необработанную неструктурированную информацию, например слова на странице, в связанные знания. Они повторно проанализируют книги и входящий контент библиотеки, используя контекстные подсказки для идентификации и связи объектов со структурой DBpedia.

Пример: Допустим, на странице описана невероятная скорость бега гепарда. Ваши сотрудники могут: 

Распознайте «гепарда» как существо типа «животное».

Свяжите его с записью о гепарде в DBpedia, дополнив ее научным названием, информацией о среде обитания и т. д.

Создайте атрибут «максимальная скорость», присвоив ему значение, найденное на странице.

Давайте быстро рассмотрим пример процесса связывания объектов: 

Шаг 3. График знаний обретает форму

Каждая сущность и взаимосвязь, выявленные вашей командой, становятся узлом и краем вашего растущего графика знаний — визуальной карты связанной информации!

Этот структурированный формат позволяет нам выйти за рамки простого сопоставления ключевых слов и по-настоящему понять смысл текста. С помощью графа знаний мы можем дополнить наш индекс сущностями, а не только терминами.

В отличие от обычного текста, с объектами связаны богатые атрибуты. Это более глубокое понимание позволит нам более эффективно анализировать неструктурированный текст, точнее интерпретировать запросы пользователей и предоставлять наиболее релевантные ответы.

Анонсы наших новых статей в Телеграме

Read More

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Капча загружается...