Название | Все лгут. Поисковики, Big Data и Интернет знают о вас всё |
---|---|
Автор произведения | Cет Cтивенс-Давидовиц |
Жанр | Прочая образовательная литература |
Серия | IT бестселлер |
Издательство | Прочая образовательная литература |
Год выпуска | 2017 |
isbn | 978-5-04-090836-3 |
Может быть, количество сексуальных опечаток необычно велико?
Чтобы проверить это, я использовал вышеуказанный набор для того, чтобы смоделировать, как часто люди путают определенные буквы. Сперва подсчитал, как часто они заменяют t и c, g и h. Затем написал программу, которая делала ошибки так же, как это могли бы сделать люди. Мы могли бы назвать эту программу Error Bot. Этот бот заменял t на c с той же частотой, что и люди в исследовании Microsoft. И g на h. И так далее. Я запустил программу, набирая те же слова, которые хотели напечатать люди в исследовании Microsoft. Другими словами, бот пытался набрать слова «пешеход», «скалы», «окна» и «холодильник». Но он так же часто, как люди, путал r и t и писал, например, вместо «rocks» – «tocks» («ягодицы»). И так же часто, как люди, путал r и с и писал вместо «rocks» – «cocks».
Так что же мы узнаем из сравнения программы Error Bot с обычными небрежными людьми? Сделав несколько миллионов ошибок, просто путая буквы так же, как это делают люди, Error Bot сделал множество опечаток по Фрейду. Вместо «seashell» программа писала – «sexshell», вместо «lipstick» – «lipsdick», вместо «luckiest» – «fuckiest» и делала много других подобных опечаток. И вот ключевой момент. Error Bot, у которого, конечно же, нет подсознания, делал ошибки с той же вероятностью, что и реальные люди, опечатки которых воспринимаются как сексуальные. С оговоркой – как мы, социологи, любим говорить, – что необходимо провести дополнительные исследования. Это означает, что сексуально ориентированные ошибки встречаются не чаще, чем просто случайные.
Иными словами, когда люди делают опечатки и пишут «penistrian», «sexurity» и «cocks», совсем необязательно существование какой-то связи между ошибками и запретным. Не факт, что посредством этих описок разум людей раскрывает свои тайные желания. Эти опечатки могут быть объяснены обычными промахами пальцев. Люди делают много ошибок. И если у вас это случается достаточно регулярно, в конце концов обязательно получится что-то вроде «lipsdick», «fuckiest» и «penistrian». Если обезьяна достаточно долго будет бить по клавишам, она в конце концов напишет «быть или не быть». Если человек достаточно долго печатает, он в конце концов может написать «penistrian».
Теория Фрейда о том, что оговорки демонстрируют содержание нашего подсознания, является, согласно моему анализу данных, ложной.
Большие данные говорят нам, что банан – это всегда просто банан, а «penistrian» – просто «pedestrian», но напечатанный с ошибкой.
Но неужели Фрейд промахнулся со всеми своими теориями? Не совсем. Когда я впервые получил доступ к данным PornHub, меня посетило откровение: я наконец нашел то, что показалось мне хоть
38
Набор данных может быть загружен на https://www.microsoft.com/en-us/download/details.aspx?id=52418. Ученые попросили пользователей Amazon Mechanical Turk описать изображения. Они проанализировали логи кликов и отметили любой момент, когда кто-то исправлял слово. Более подробную информацию можно найти в Yukino Baba and Hisami Suzuki, «How Are Spelling Errors Generated and Corrected? A Study of Corrected and Uncorrected Spelling Errors Using Keystroke Logs» («Как исправлять орфографические ошибки? Исследование корректируемых и некорректируемых ошибок с помощью журналов нажатия клавиш»), Proceedings of the Fiftieth Annual Meeting of the Association for Computational Linguistics, 2012.