Анализ email-сообщений за 18 лет: Неудачный эксперимент по путешествию во времени
В нашем блоге мы много пишем о создании email-рассылок и работе с электронной почтой. Мы уже обсудили сложности борьбы со спамом, будущее email, вопросы защиты почтовой переписки, а также техники работы с email, а также разобрались, почему с течением времени темы почтовых сообщений становятся длиннее.
Многие люди пользуются электронной почтой уже на протяжение десятилетий — а значит, возникает вопрос о том, что анализ данных писем за долгое время может рассказать об эволюции конкретной личности. Журналист и создатель сервиса для разработки веб- и мобильных приложений Postlight Пол Форд в своем блоге на Medium опубликовал результаты эксперимента, в ходе которого он пытался создать динамическую систему поиска писем в своем почтовом ящике, в котором за 18 лет скопилось более 450 тыс. email-сообщений. Мы представляем вашему вниманию адаптированный перевод этой заметки.
Идея: путешествие во времениИдея исследователя заключалась в следующем: если бы он смог быстро просматривать все свои старые сообщения, то это бы позволило проследить, как со временем менялись его собственные взгляды и мысли.
Однако результаты эксперименты расстроили Форда.
Электронная почта и крупные корпорацииВо-первых, ему нужно было урегулировать некоторые технические вопросы. Форд пользуется аккаунтом Gmail, но система поиска в почтовом сервисе Google очень специфична. С её помощью можно легко найти любое из недавно полученных электронных писем, словно иголку в стоге сена. Но исследователь собирался со всего маху прыгнуть в этот стог, и для этого ему нужна была быстрая и эффективная поисковая система, которая могла бы просканировать десятки тысяч писем в одно мгновение. А интерфейс поиска Gmail в таких случаях выглядит вот так:
Учитывая, что также Форд использует компьютер Macintosh, он бы мог скачать всю свою переписку с помощью Apple Mail и воспользоваться встроенным поиском Apple Spotlight. Но дело вот в чём.
В 1996 году пользователь мог нажать клавишу ⌘-F, затем ввести название файла в строке поиска, и компьютер находил нужный файл за несколько секунд. Сегодня, в результате полнотекстового поиска человек в аналогичной ситуации получает 5 000 файлов, которые никак не связаны с тем, который он на самом деле искал.
Форд пришел к выводу о том, что ни поисковая корпорация Google, оцениваемая в 375 миллиардов долларов, ни технологическая компания Apple, оцениваемая в 700 миллиардов долларов, не в состоянии сортировать его электронные письма.
Электронная почта и бесплатное программное обеспечениеБесплатное программное обеспечение стало причиной возникновения проблемы с электронной почтой, поэтому Форд предположил, что оно же может стать и решением. И, как оказалось, был прав. С помощью инструмента под названием offlineimap исследователь скачал всю переписку со своего аккаунта Gmail. На это у него ушло несколько дней, после чего нужно было заняться обработкой писем. Сделать это можно разными способами, но Форд предпочитает пользоваться программами mairix и mu. Раньше он использовал mairix, но в mu больше дополнительных возможностей для составления списков писем и их отображения, поэтому окончательный выбор пал на него. Чтобы начать поиск в mu, нужно набрать:
mu find waffles
и программа создает специальную папку, в которой собраны все электронные письма, содержащие слово «waffles». В случае Форда там оказалось 99 писем.
Электронная почта и человекИтак, теперь у исследователя была лаборатория для изучения своего прошлого. В ходе исследования он выяснил, что за 18 лет отправил 82 865 электронных писем, в среднем по 4 600 писем в год. Немало.
Затем он стал искать письма по определенным словам, чтобы увидеть, как со временем менялось его отношение к определенным вещам. Например, когда Форд только начал этот проект, то закончил статью о хороших манерах и вежливости. И чтобы узнать, что он сам думал о манерах и вежливости раньше, ввел в строку поиска:
mu find from:ford@ftrain.com polite
По запросу было найдено 196 писем, каждое из которых содержало в тексте (в том числе и в цитируемой части) заданное слово. Форд просмотрел все эти письма.
На протяжении 18 лет он писал о манерах и вежливости приблизительно одно и то же. Во всех найденных письмах было написано нечто вроде «я изо всех сил старался быть вежливым», или «вежливость важна для меня», или «я старался вести себя вежливо и почтительно, когда встретил людей с радио». Мое мнение по этому вопросу, мои основополагающие убеждения, предположения и манеры не изменились.
Конкретно эта тема не очень интересна. Но что действительно изменилось за эти 20 лет, так это сеть. Форд пишет, что многое узнал о программировании, о создании систем управления контентом. Его представление о технологиях должно было измениться, ведь так? Поэтому он решил выяснить, насколько улучшилось его понимание сети. С помощью запроса «HTML» Форд сумел обнаружить давно забытый инструмент для ведения блогов, который сам написал для своих друзей в 1999. У него не было названия.
С таким же успехом он быть написан вчера. За это время Форд многое узнал о программировании и базах данных, потратил уйму времени на изучение информатики. И всё это для того, чтобы делать одни и те же вещи, а потом забывать об этом, и делать их снова. Это словно фильм День сурка о фильме День сурка. Он продолжал читать свои письма и понимал, что все двадцать лет говорил о:
- Ведении блогов;
- Контент-менеджменте;
- Написании писем;
- Будущем журналов;
- Природе технологий.
- Политике;
- Расовой дискриминации;
- Самоопределении;
- Сексизме;
- Различии полов.
До того, как исследователь провел этот эксперимент, он был уверен, что раньше занимал пассивную позицию и старался не ввязываться в конфликты, и что у него ушло много времени на то, чтобы научиться доказывать свою правоту – но теперь он намного охотнее защищает свои взгляды. Но это было бы неправдой. Судя по архиву, Форд постоянно участвовал в каком-либо споре по электронной почте, и, очевидно, поднаторел в этом деле. А поскольку он долгое время верил, что в прошлом недостаточно твёрдо отстаивал свои взгляды, то в настоящем, занимал пассивно-агрессивную позицию потерпевшего чаще, чем другие люди.
Слово «привет» тысячу раз встречалось в заголовках писем и шесть тысяч раз – в содержании. Форд написал простой скрипт, запустив который из командной строки, можно узнать, сколько раз за 18 лет было отправлено писем со словом «кофе». Каждая «*» равна десяти словам «кофе».
И тут можно проследить некоторую закономерность. До 2005 года Форд ходил на свидания, занимался внештатной работой и пил много кофе. Затем он стал редактором и встретил свою жену – в итоге почти пять лет жил без кофе. В 2010 году он уволился и стал в основном работать на себя, поэтому стал пить кофе литрами. Это, конечно, интересная информация, но она не несет в себе пользы и не отражает никаких внутренних изменений. Это просто структура потребления.
Следует также отметить тот факт, что все эти годы Форд жаждал изменений. Конечно, он не единственный, кто рассылает электронные письма. В архиве Форда хранятся письма от сотен других людей, и он говорит, что до сих пор общается с некоторыми из них.
Очень странно перечитывать нашу переписку, потому что многие из нас до сих пор одержимы теми же идеями, что десять или пятнадцать лет назад. Мы взрослеем, женимся и разводимся. Кто-то из нас богат, кто-то беден, одни читают комиксы, другие пишут стихи, третьи – рассказы, а некоторые носят всё те же футболки.
Дети меняют нас, ради них мы меняемся на протяжении всей жизни. Развод меняет нас. Мы стараемся поймать момент, стать лучше, но в итоге возвращаемся к привычному для нас образу жизни. Время бежит, как вода. Но, как говорится, вода камень точит. Изменение приходит извне.
Именно поэтому Форд считает, что его эксперимент окончился провалом. Это эпоха самоанализа и радикальной трансформации. Он составлял таблицы, производил расчеты и искал закономерности. Теперь исследователь может назвать 20 самых часто употребляемых собою слов в каждом году или количество писем, в которых он писал о потере веса, может сказать, когда впервые задумался о том, чтобы стать отцом. По большому счету всю жизнь можно представить в цифрах — актуарных таблицах, банковских выписках, принадлежащих человеку квадратных метрах, количестве детей. Но подсчет вещей не меняет их.
В процессе написания этой статьи я наткнулся на один email 11-летней давности. Оказалось, что именно эту статью — которую вы читаете в данный момент — я пытался продать Национальному Общественному Радио в качестве дикторского текста под названием «Сбор и анализ данных о себе». «В архиве моей электронной почты хранятся письма, которые я получал на протяжении последних 8 лет, — писал я в 2003, — и я давно хотел написать программу для поиска и…»
Остальное вы знаете.
Они ее одобрили.
«Чтобы в этом разобраться, — сказал я им, — потребуется время».