Вирус нового поколения
Знаете какой опасный вирус нас всех накроет в самое ближайшее время? Нет, ребята, это не новый штамм гриппа и не рак шейки бедра, а ДЕЗинформация, которая хлещет нескончаемым потоком из социальных сетей, телевизора и чайника. Смартфон с интернетом, кажется, очень сильно недооценен!
Посмотрите вокруг - телефон есть, практически, у каждого. Когда мы говорим, что перестали смотреть телевизор, мы просто не договариваем фразу до конца:
Мы перестали смотреть телевизор, потому что начали смотреть интернет. В смартфоне.
Современному миру нужны новые поисковые алгоритмы и новые поисковые машины! Гугл, Яндекс вам пора меняться. Должны, появиться умные люди, инвесторы, гениальные бизнесмены, может филантропы :) которые возьмутся сделать инструмент, способный анализировать хотя бы текстовые новостные потоки. Хотя бы в первом приближении фильтровать правду от вымысла, пропаганды. Очевидно, что для этого нужны сильные математические и лингвистические мозги, чтобы научить программу анализировать тысячу факторов: дату публикации новости, источник-исходник, реакцию других СМИ, реакция читателей, комментарии, кем они сделаны (боты, тролли, авторитеты), реакция блогосферы, цитирование, репосты и фиг знает сколько ещё всего.
Мой знакомый математик подсказывает мне, что скорее всего это должно работать как антивирусная программа:
Текст подвергается некоторой процедуре «суммаризации», результатом которой является некоторая «сигнатура». Что-то вроде того, как работают антивирусы. Эти сигнатуры хранятся в некой базе данных, каждая запись которой содержит динамически обновляемую величину «фейковости», связанную с данной сигнатурой.
Для анализа текстов используется нейронная сеть, которая периодически переучивается по базе данных сигнатур. Нейронная сеть получает на вход сигнатуру нового текста и выдает ответ «фейк-не фейк», например. Количество параметров в ответе может быть и больше.
Текущий мировой опыт
Конечно, наработок в этой области очень много и мир уже находится на определённом уровне развития. Вот, навскидку:
- Сайт Real time rumor tracker - исследовательский проект Колумбийского университета, но кажется заброшенный.
- Яндекс имеет целую школу анализа данных (ШАД) вот один из их видео-курсов машинного обучения (2014).Больше десятка лет существует бизнес-аналитика для продаж, услуг, банков, страхований и проч и проч.:
- Компания SAS имеет свой текст майнер
- IBM text analytics + Natural language processing for advanced text analysis
- Lexalytics text analytics
- Smartlogic
- Provalis research
- Opentext
- Pingar
- Clara Bridge
- Kcura
- Oracle Social Cloud — Collective Intellect
- Expert System Solutions
- Systran
- Google Cloud Prediction API Documentation
Ну и ещё десятки, десятки программ, включая многочисленные спам фильтры. Вот целый сайт на эту тему.
Всё интересное прочитать и осмыслить просто невозможно
У кого из вас не лежат сотни ссылок в закладках «Читать позже» или «Посмотреть позже» в плейлисте ютьюба? Целый бизнес на этом построен у компании Pocket (бывший «Read It Later»). Например вы занимаетесь изготовлением изделий из древесины у вас в закладках лежат десятки видео на эту тему, посмотреть которые займёт целый месяц. Где найти столько времени?
+ Автоматическое конспектирование. Summary
Издательства и онлайн СМИ осознают недостаток времени у читателей и всё чаще подают информацию конспективно. «Медуза» делает карточки в стиле вопросов и ответов и назвала это «Разбор», а бывший соучредитель «МИФ» создал новую компанию «Smart Reading», и переиздаёт толстые книги в форме брошюр на 15-20 минут чтения:
Саммари — тексты, в которых в сжатой форме рассказывается о ключевых идеях каждой книги. Мы не просто сокращаем текст, а анализируем и собираем всю «соль», которую автор старается донести до читателя. (о проекте)
Я к чему. Я к тому, что мы находимся в самом начале информационной эволюции и нам ещё предстоит пережить смерть гугла бум умных поисковиков, которые будут проверять на достоверность, анализировать и доставлять нам в телефоны все самые важные новости по любой теме в виде очищенного краткого конспекта. Содержимым будет не только текст, но и видеоматериалы. Всё будет формироваться без участия человека, автоматически.
Здоровое будущее за математикой и лингвистическим анализом — вот кто будет нашими героями! :) Ну и программисты, понятное дело. Допускаю мысль, что и инвесторами новых технологий борьбы с информационными вирусами может оказаться само сообщество, а деньгами будет какая-нибудь свободная и независимая кибер-валюта.
Вирус пропаганды пострашнее ядерной войны и с ним надо что-то делать, так как история уже показывала нам чем это всё заканчивается.
UPDATE 2017-04-07: а вот и первые новости от Гугла!
Гугл запустил новостной фактчекинг по всему миру
Статьи и новости с информацией, проверенной авторитетными изданиями и фактчекинговыми организациями, получат тэг «Fact Check» в Google News. Для этого СМИ нужно будет добавить в свои материалы специальную разметку ClaimReview, разработанную schema.org, или виджет Share the Facts. Авторитетность изданий при этом будет определять алгоритм Google.
(ссылка)
Источник — Гугл Блог.
Сделал апдейт к посту свежими новостями :)