Тяжкий путь познания

Социальные сети меняют язык казахстанской молодежи. Вторая часть. Окончание.

Тяжкий путь познания

Проект: Поколение NEXT

ExpertOnline.kz  продолжает проект о молодом поколении ученых, современных интеллектуалах, которые обучались или обучаются за пределами Казахстана. Они сделали свой выбор: это путь знаний – крайне сложный, но почетный. Каковы эти люди – те, кто завтра будет продвигать страну, представлять ее на международной арене, кто скажет свое новое слово в науке, технике, общественных процессах. Мы предоставили им слово, дали возможность в свободном, непринужденном стиле рассказать о себе, своих увлечениях, воззрениях. Это небольшие сюжеты о наших современниках, еще совсем молодых, но знающих, чего они хотят от жизни, и размышляющих о геополитике, культуре, месте и роли Казахстана в современном мире. Это поколение будущего.

Вторая часть. Окончание

В век тотального избытка информации компьютеры должны помогать нам в минимизации времени на нахождение полезного контента. Поисковые системы великолепны, когда у пользователя есть намерение: он точно знает, что ищет, и формулирует это в поисковом запросе. Однако зачастую мы не знаем, что мы ищем, а просто хотим почитать "что-нибудь интересное". В результате интернет-пользователи полагаются на ссылки из статей в reddit и Hacker News, Twitter и Facebook, RSS ридеры (такие, как до июня 2013 года - Google Reader). Однако "шум" и интенсивность появления нового контента на этих сайтах приводят к тому, что пользователи сталкиваются с проблемой "поиска иголки в стоге сена", когда они пытаются найти самые интересные статьи за кратчайшее время. В своей работе я проанализировал текущие алгоритмы для рекомендации статей на основе всех ссылок, которыми делятся друг с другом пользователи Twitter, а также предложил собственный алгоритм.

Лайки за ум 

Со 140 миллионами активных пользователей и 340 миллионами твитов в день (март 2012г) Twitter представляет собой превосходный источник для статей, заслуживающих рекомендации. В своей работе я проанализировал 836 пользователей Твиттера из области технологий и стартапов и 78,508 статьи, которыми они поделились со своими фолловерами. Я исследовал и оценил различные (существующие и новые) подходы, включая следующие:

простейшее векторное сходство, где каждый пользователь представляется в виде вектора из слов, содержащихся в его твитах - подход, где для каждой статьи автоматически создается модель топиков (тем), которые освещаются в статье;

гибридный подход, где метод коллаборативной фильтрации (когда для прогнозирования предпочтений нового пользователя используются предпочтения известных пользователей) скрещивается с методом, где в учет идет еще и текст самих статей. 

У меня очень много интересов – и это самая большая проблема. Во время бакалавриата я боролся с этим, но в последние 2-3 года решил принять свою природную любознательность в качестве собственной слабости. Вот некоторые из моих интересов: боевые искусства, японский язык, стартапы, гонконгские фильмы в жанре «боевых искусств», достижение мастерства в разного рода вещах за кратчайшие сроки, восточная философия и дзен, написание эссе (http://suleimenov.yvision.kz; www.nowaternomoon.com ); «Princeton Startup TV» (www.princetonstartuptv.com) - в своем подкасте я записываю интервью с ведущими предпринимателями и профессорами США.

В плане эклектизма и универсальности примерами для меня, кроме Леонардо да Винчи, являются Нейтан Мирвольд и Тим Феррис. Вкратце расскажу о первом. Нейтан Мирвольд, будучи вторым человеком в Microsoft (занимая позицию CTO – главного технического директора), был кулинаром-любителем в одном из лучших ресторанов в Сиэтле. Он - основатель одного из топовых мировых исследовательских центров - Microsoft Research. При всем при этом он - победитель чемпионата Мемфиса по барбекю, автор 6-томной кулинарной энциклопедии «Кухня модерниста: искусство и наука кулинарии», основатель компании Intellectual Ventures – одной из пяти организаций, которой принадлежат большинство патентов в США. Он - победитель мировых конкурсов за свои фотографии дикой природы и имеет степень PhD в теоретической и математической физике от Принстонского университета. Чем не пример для подражания?

  1. Segaran, T. Programming Collective Intelligence: Building Smart Web 2.0 Applications.
  2. Murphy, K. Machine Learning: A Probabilistic Approach.
  3. Ariely, D. Predictably Irrational.
  4. Chiang, M. Networked Life: 20 Questions and Answers.
  5. MacCormick, J. Nine Algorithms That Changed the Future.

Всюду эклектика

Думаю, эклектизм очень помогает в исследовательской деятельности. К примеру, если вы подходите к задаче из математики глазами музыканта, экономиста или лингвиста, вы можете найти связи, создать что-нибудь по-настоящему новое и интересное, что просто не разглядели «чистые» математики. В этом слиянии дисциплин возникают новые горизонты, и каждая из областей открывается в новом свете. Даниель Канеман получил Нобелевскую премию за применение психологических методик в области экономики, этой же чести удостоился Джон Нэш за свою работу в «множестве пересечений» экономики и математики. В некоторых из моих исследовательских работ отражается моя страсть к «междисциплинарности»:

Информатика + лингвистика. Когда мы изучаем языки, мы читаем длинные объяснения грамматических структур - вместо того, чтобы сразу же приступить к более практичному индуктивному подходу. Читаем пять примеров-предложений по данной грамматической теме и используем свою интуицию, воображение и «pattern matching», чтобы самостоятельно и без лишних объяснений понять, как «работает» данная грамматическая структура.

Я сфокусировался на японском языке, который изучал в течение 5 семестров в университете (из них 2 семестра – в Японии). После анализа нескольких учебников по грамматике японского я обнаружил около 200 грамматических структур. Далее, используя различные техники из области информатики, которая называется «Natural Language Processing», я написал программу, которая автоматически классифицирует японские предложения как примеры какой-либо из 200 грамматических структур.

Моя модель была построена на основе 150,000 японских предложений, собранных из разных источников. Видение для конечного продукта на основе данной технологии – обучающая игра, которая позволяет изучать грамматику японского на примерах, без скучных объяснений грамматики. Причем предложения, которые выбираются в качестве примеров, подбираются на основе интересов пользователя. Если, к примеру, ему интересен футбол, то примеры всех предложений будут на футбольную тему. Это намного повышает усвоение нового грамматического материала.

Краткость и ясность изложения

Информатика + психология. Мой проект назывался «Papers for the Masses». Задача заключалась в том, чтобы сделать научные академические статьи и публикации более доступными для широкой аудитории. С этой целью для каждой научной публикации моя программа автоматически находила блог-посты, где студенты и профессора, которые прочитали статью, объясняют ее простым языком. Естественно, это не заменяет прочтение оригинала, однако помогает студентам хорошо подготовиться к ее прочтению.

Информатика + социальные науки. Зачастую рейтинги и всевозможные хит-парады университетов, ресторанов или песен создаются отдельными лицами и организациями, поэтому отражают мнение одного человека. Моя идея заключалась в том, чтобы  создавать эти рейтинги автоматически на основе того, что миллионы людей пишут в Твиттере. Это непростая задача, так как алгоритмам по обработке текста необходимо понять, что речь в данном твите идет об определенном объекте (этим занимается name entity detection), какую эмоциональную окраску несет данное предложение (sentiment analysis) и затем объединить все эти сигналы в единую метрику, чтобы непосредственно ранжировать объекты и создать конечный результат: скажем - рейтинг лучших ресторанов города Астаны.

Ну работаю я уже на самом деле давно (с 2007г – в компании Interactiv Kazakhstan). Я заметил: все, что мной анонсируется, имеет свойство не сбываться, поэтому лучшим ответом на вопрос «Каковы мои планы?» будет их непосредственная реализация.

Статьи по теме:
Экономика и финансы

Ушли, но обещали вернуться

Одним из факторов, спровоцировавших ослабление тенге, стал выход нерезидентов из краткосрочных нот Нацбанка

Казахстанский бизнес

Забетонировать цену

На рынке цемента цены восстанавливаются до уровня 2013 года

Тема недели

Труба для Астаны

Газификация столицы стала возможной только с третьей попытки

Казахстанский бизнес

Торг здесь электронный

Казахстанская система электронных госзакупок, выстроенная ЦЭК, позволяет производить все закупки госорганов в электронном виде, вести электронный мониторинг корректности процесса закупок и даже электронно жаловаться, если что-то пошло не так