Портал разработан и поддерживается АНО "Центр ПРИСП"
Меню
13 апреля 2023, 14:11

Новое отечественное ПО измерит общественное самочувствие

Новое отечественное ПО измерит общественное самочувствие
 
Политолог, заместитель директора Центра ПРИСП Валерий Прохоров – о новом отечественном аналитическом программном обеспечении.

Поисковые запросы в таких системах, как Яндекс или Гугл, хранят в себе бездну информации о тех, кто их задает. Ведь просто так человек не станет вбивать текст в поле ввода. А раз его интересует результат поиска, то те, кто смотрит на него с другой стороны поискового сервиса, могут предположить, о чем он задумался. Особенно если они сохраняют у себя запросы и анализируют их. Порой эти предположения совсем недалеки от истины. Особенно если анализировать запросы не по отдельности, а в совокупности. Тогда вероятность точного предположения существенно возрастает. Тем более что задачу пробраться в чью-то отдельную голову решают другими методами, а вот понять, что делается в общественной голове, как раз можно, рассмотрев весь массив запросов.

Надо сказать, что сами поисковые сервисы свободно предоставляют данные о запросах. Например, у Яндекс соответствующий сервис называется Яндекс.Wordstat, а у Гугла – Google.Trends. Но для масштабного анализа функционал этих сервисов слишком скромен. Поэтому появился целый класс программ – парсеры (от англ. parse – делать синтаксический или грамматический разбор, анализировать), - которые этот самый функционал расширяют. Какие возможности добавлять – дело разработчика, но благодаря подавляющему большинству парсеров существенно сокращается время сбора информации о запросах.

Очевидно, что использование парсеров повышает нагрузку на серверы поисковых систем, с чем борются периодически всплывающими требованиями ввести информацию с экрана – так называемой капчой (от CAPTCHA — англ. Completely Automated Public Turing test to tell Computers and Humans Apart — полностью автоматизированный публичный тест Тьюринга для различения компьютеров и людей). В ответ на это возникают как автоматизированные способы обхода капчи, так и компании, предлагающие услуги по удаленному ручному вводу капчи. Таким образом, идет своеобразная гонка вооружений: владельцы поисковых сервисов стараются защитить свои системы от автоматизированного сбора информации, а потребители этой информации стараются преодолеть средства защиты.

Одной из таких программ-парсеров является «Запросник», созданный под руководством Арсения Беленького и Виктора Истратова в 2022 году. Программа отличается от конкурентов сфокусированностью на выгрузке данных о запросах за некоторый промежуток времени. Например, Яндекс предлагает данные не старше двух лет.

«Запросник» умеет выявлять скрытые повторы запросов и корректировать результаты, исходя из них. Например, нужно найти количество запросов по двум словосочетаниям: «писатель Джордж Мартин» и «Мартин игра престолов». Если найдем число запросов по каждому из этих запросов и потом просто сложим, то сумма будет превышать реальное количество запросов. Почему? Потому что запрос «писатель Джордж Мартин игра престолов» будет учтен дважды: как частный случай первого запроса и частный случай второго запроса. Это происходит из-за того, что подобные сервисы предоставляют информацию не только о том запросе, который точно совпадает с нужным нам, но и обо всех запросах, которые содержат в себе нужный запрос. Программа «Запросник» позволяет справляться с такого рода затруднениями автоматически. Правда, не абсолютно автоматически: пользователю предварительно надо настроить некоторые параметры.

К сожалению, не все проблемы можно решить автоматически. И это, прежде всего, проблемы семантического толка. Их по-прежнему приходится решать вручную. Поясним на примере. Пусть мы ищем запросы о шахматисте Данииле Дубове. Поскольку поисковая система рассматривает все числовые и падежные формы слова как одно и то же слово и не различает имен собственных и нарицательных, то фамилия Дубов будет также интерпретирована как слово дуб во множественном числе и в родительном падеже (дубóв). И отделять запросы о дереве от запросов о шахматисте придется вручную. Равно как и запросы о шахматисте Дубове от запросов об однофамильцах и тезках, если такие найдутся.

Кроме того, «Запросник» умеет отфильтровывать заведомо пустые запросы, вычислять количество запросов по группе формулировок с отсевом повторов, строить графики на основе выгруженных данных.

Таким образом, программа «Запросник» не решает всех проблем, возникающих при выгрузке статистики о запросах, но зато решает часть тех, которых не касаются программы-конкуренты.
Печать
Обращения норильчан на прямую линию взяты в работу22:50Объявлена угроза цунами по восточному побережью Камчатки22:40Цыбульский предложил создать прозрачный механизм распределения межбюджетных трансфертов22:29Губернатор Кировской области Соколов выступил с ежегодным посланием22:17Москва отремонтирует в 2026 году в Луганске порядка 90 объектов22:08Середюк ответил в прямом эфире на актуальные вопросы кузбассовцев21:57Депутаты отложили вопрос о выборах главы Ижемского района21:45Якушев: Победу на выборах от ЕР одержали уже 917 участников СВО21:35Хоценко и Чемезов обсудили проекты сотрудничества Омской области и Ростеха21:23Вологодский ГУ укрепляет связи с иностранными студентами21:13В Перми открылся Съезд туристских информационных центров России20:57В каких районах Коми была высокая явка на выборах губернатора20:45Вологодчина - в ТОП-3 регионов по просветительской работе со студентами20:33Тамбовщина представляет свою продукцию на выставке продуктов питания20:18Куратором лесного комплекса Вологодчины назначен Иноземцев20:10Матвиенко обсудила с руководством Карачаево-Черкессии развитие региона19:58Шесть единороссов отказались от мандатов в заксобрание ЯНАО19:40Володин поблагодарил Путина за внимание к парламенту19:23Челябинская область вошла в пятерку в стране по онлайн-голосованию19:05Борьба за место второй парламентской партии подходит к концу18:42Преимущества от развития нефтегазового сектора для жителей Тюменской области18:42Финал Конкурса социальных архитекторов состоится с 21 по 24 октября18:33Колокольцев: Россия стала мировым центром притяжения мигрантов18:22Путин не исключил переименования Волгограда в Сталинград18:13Евгений Первышов проверил ход работ на проблемных объектах в Тамбове18:05Первый губернатор Тюменской области получил новый пост17:59Счетная палата РФ составила рейтинг контрольно-счетных органов регионов17:34В Челябинской области ушла в отставку глава Кыштыма17:30
E-mail*:
ФИО
Телефон
Должность
Сумма 1 и 9 будет

Архив
«    Сентябрь 2025    »
ПнВтСрЧтПтСбВс
1234567
891011121314
15161718192021
22232425262728
2930