Тяжкий путь познания

Социальные сети меняют язык казахстанской молодежи. Вторая часть. Окончание.

Тяжкий путь познания

Проект: Поколение NEXT

ExpertOnline.kz  продолжает проект о молодом поколении ученых, современных интеллектуалах, которые обучались или обучаются за пределами Казахстана. Они сделали свой выбор: это путь знаний – крайне сложный, но почетный. Каковы эти люди – те, кто завтра будет продвигать страну, представлять ее на международной арене, кто скажет свое новое слово в науке, технике, общественных процессах. Мы предоставили им слово, дали возможность в свободном, непринужденном стиле рассказать о себе, своих увлечениях, воззрениях. Это небольшие сюжеты о наших современниках, еще совсем молодых, но знающих, чего они хотят от жизни, и размышляющих о геополитике, культуре, месте и роли Казахстана в современном мире. Это поколение будущего.

Вторая часть. Окончание

В век тотального избытка информации компьютеры должны помогать нам в минимизации времени на нахождение полезного контента. Поисковые системы великолепны, когда у пользователя есть намерение: он точно знает, что ищет, и формулирует это в поисковом запросе. Однако зачастую мы не знаем, что мы ищем, а просто хотим почитать "что-нибудь интересное". В результате интернет-пользователи полагаются на ссылки из статей в reddit и Hacker News, Twitter и Facebook, RSS ридеры (такие, как до июня 2013 года - Google Reader). Однако "шум" и интенсивность появления нового контента на этих сайтах приводят к тому, что пользователи сталкиваются с проблемой "поиска иголки в стоге сена", когда они пытаются найти самые интересные статьи за кратчайшее время. В своей работе я проанализировал текущие алгоритмы для рекомендации статей на основе всех ссылок, которыми делятся друг с другом пользователи Twitter, а также предложил собственный алгоритм.

Лайки за ум 

Со 140 миллионами активных пользователей и 340 миллионами твитов в день (март 2012г) Twitter представляет собой превосходный источник для статей, заслуживающих рекомендации. В своей работе я проанализировал 836 пользователей Твиттера из области технологий и стартапов и 78,508 статьи, которыми они поделились со своими фолловерами. Я исследовал и оценил различные (существующие и новые) подходы, включая следующие:

простейшее векторное сходство, где каждый пользователь представляется в виде вектора из слов, содержащихся в его твитах - подход, где для каждой статьи автоматически создается модель топиков (тем), которые освещаются в статье;

гибридный подход, где метод коллаборативной фильтрации (когда для прогнозирования предпочтений нового пользователя используются предпочтения известных пользователей) скрещивается с методом, где в учет идет еще и текст самих статей. 

У меня очень много интересов – и это самая большая проблема. Во время бакалавриата я боролся с этим, но в последние 2-3 года решил принять свою природную любознательность в качестве собственной слабости. Вот некоторые из моих интересов: боевые искусства, японский язык, стартапы, гонконгские фильмы в жанре «боевых искусств», достижение мастерства в разного рода вещах за кратчайшие сроки, восточная философия и дзен, написание эссе (http://suleimenov.yvision.kz; www.nowaternomoon.com ); «Princeton Startup TV» (www.princetonstartuptv.com) - в своем подкасте я записываю интервью с ведущими предпринимателями и профессорами США.

В плане эклектизма и универсальности примерами для меня, кроме Леонардо да Винчи, являются Нейтан Мирвольд и Тим Феррис. Вкратце расскажу о первом. Нейтан Мирвольд, будучи вторым человеком в Microsoft (занимая позицию CTO – главного технического директора), был кулинаром-любителем в одном из лучших ресторанов в Сиэтле. Он - основатель одного из топовых мировых исследовательских центров - Microsoft Research. При всем при этом он - победитель чемпионата Мемфиса по барбекю, автор 6-томной кулинарной энциклопедии «Кухня модерниста: искусство и наука кулинарии», основатель компании Intellectual Ventures – одной из пяти организаций, которой принадлежат большинство патентов в США. Он - победитель мировых конкурсов за свои фотографии дикой природы и имеет степень PhD в теоретической и математической физике от Принстонского университета. Чем не пример для подражания?

  1. Segaran, T. Programming Collective Intelligence: Building Smart Web 2.0 Applications.
  2. Murphy, K. Machine Learning: A Probabilistic Approach.
  3. Ariely, D. Predictably Irrational.
  4. Chiang, M. Networked Life: 20 Questions and Answers.
  5. MacCormick, J. Nine Algorithms That Changed the Future.

Всюду эклектика

Думаю, эклектизм очень помогает в исследовательской деятельности. К примеру, если вы подходите к задаче из математики глазами музыканта, экономиста или лингвиста, вы можете найти связи, создать что-нибудь по-настоящему новое и интересное, что просто не разглядели «чистые» математики. В этом слиянии дисциплин возникают новые горизонты, и каждая из областей открывается в новом свете. Даниель Канеман получил Нобелевскую премию за применение психологических методик в области экономики, этой же чести удостоился Джон Нэш за свою работу в «множестве пересечений» экономики и математики. В некоторых из моих исследовательских работ отражается моя страсть к «междисциплинарности»:

Информатика + лингвистика. Когда мы изучаем языки, мы читаем длинные объяснения грамматических структур - вместо того, чтобы сразу же приступить к более практичному индуктивному подходу. Читаем пять примеров-предложений по данной грамматической теме и используем свою интуицию, воображение и «pattern matching», чтобы самостоятельно и без лишних объяснений понять, как «работает» данная грамматическая структура.

Я сфокусировался на японском языке, который изучал в течение 5 семестров в университете (из них 2 семестра – в Японии). После анализа нескольких учебников по грамматике японского я обнаружил около 200 грамматических структур. Далее, используя различные техники из области информатики, которая называется «Natural Language Processing», я написал программу, которая автоматически классифицирует японские предложения как примеры какой-либо из 200 грамматических структур.

Моя модель была построена на основе 150,000 японских предложений, собранных из разных источников. Видение для конечного продукта на основе данной технологии – обучающая игра, которая позволяет изучать грамматику японского на примерах, без скучных объяснений грамматики. Причем предложения, которые выбираются в качестве примеров, подбираются на основе интересов пользователя. Если, к примеру, ему интересен футбол, то примеры всех предложений будут на футбольную тему. Это намного повышает усвоение нового грамматического материала.

Краткость и ясность изложения

Информатика + психология. Мой проект назывался «Papers for the Masses». Задача заключалась в том, чтобы сделать научные академические статьи и публикации более доступными для широкой аудитории. С этой целью для каждой научной публикации моя программа автоматически находила блог-посты, где студенты и профессора, которые прочитали статью, объясняют ее простым языком. Естественно, это не заменяет прочтение оригинала, однако помогает студентам хорошо подготовиться к ее прочтению.

Информатика + социальные науки. Зачастую рейтинги и всевозможные хит-парады университетов, ресторанов или песен создаются отдельными лицами и организациями, поэтому отражают мнение одного человека. Моя идея заключалась в том, чтобы  создавать эти рейтинги автоматически на основе того, что миллионы людей пишут в Твиттере. Это непростая задача, так как алгоритмам по обработке текста необходимо понять, что речь в данном твите идет об определенном объекте (этим занимается name entity detection), какую эмоциональную окраску несет данное предложение (sentiment analysis) и затем объединить все эти сигналы в единую метрику, чтобы непосредственно ранжировать объекты и создать конечный результат: скажем - рейтинг лучших ресторанов города Астаны.

Ну работаю я уже на самом деле давно (с 2007г – в компании Interactiv Kazakhstan). Я заметил: все, что мной анонсируется, имеет свойство не сбываться, поэтому лучшим ответом на вопрос «Каковы мои планы?» будет их непосредственная реализация.

Статьи по теме:
Международный бизнес

Интернет больших вещей

Освоение IoT в промышленности позволит компаниям совершить рывок в производительности

Спецвыпуск

Бремя управлять деньгами

Замедление экономики разводит все дальше банки и реальный сектор

Бизнес и финансы

Номер с дворецким

Карта столичных гостиниц пополнилась новым объектом

Тема недели

От чуда на Хангане — к чуду на Ишиме

Как корейский опыт повышения производительности может пригодиться Казахстану?