Сегодня 03 июля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → internet archive

Архивировать интернет становится всё сложнее: Wayback Machine и Wikimedia страдают от дефицита HDD

Архивирование данных интернета оказывается всё более неподъёмной задачей из-за дефицита накопителей и роста цен на них. Жёсткие диски подорожали втрое, потому что оказались востребованными крупными компаниями. Это сильно осложняет работу таких проектов как Wayback Machine и Wikimedia.

 Источник изображения: Patrick Lindenberg / unsplash.com

Источник изображения: Patrick Lindenberg / unsplash.com

Некоммерческая организация Internet Archive, которая ставит своей целью обеспечить «доступ ко всем знаниям для всех», оказалась одной из организаций, пострадавших от кризиса. В её распоряжении хранилище объёмом около 210 Пбайт, и ещё 100 Тбайт ежедневно требует сервис Wayback Machine. Бум искусственного интеллекта превратил этот проект в «проблему, отнимающую у нас время и деньги», признаются его руководители. Для этой задачи идеально подходят жёсткие диски объёмом 28–30 Тбайт, но они часто отсутствуют на складах или продаются по сильно завышенным ценам. Отчасти эти проблемы помогают смягчить спонсоры проекта и сообщество — последнее, правда, только советами.

Ответственный за «Википедию» некоммерческий фонд Wikimedia испытывает сложные проблемы: 65 млн статей на платформе требует внушительных ресурсов, а главное — тщательно спланированного распределения бюджета, и текущая ситуация лишь усугубила эту проблему. Организация ощутила кризис при «закупке памяти и жёстких дисков, а также в отношении сроков поставки серверов и нашей способности размещать будущие заказы».

Ещё одна проблема состоит в том, что усложнились механизмы архивирования информации. Большие языковые модели ИИ обучаются на огромных массивах данных, которые подчас добываются незаконным путём — из-за этого владельцы многих сайтов блокируют доступ для средств сбора данных, не проводя различия между ИИ-ботами и добросовестными сервисами, которые собирают эту информацию в образовательных целях. Из-за подобных блокировок и роста цен на накопители не только крупные некоммерческие организации, но и одиночные энтузиасты вынуждены либо сокращать масштабы деятельности, либо вообще приостанавливать её — в ожидании, когда ситуация стабилизируется.

Активность архива интернета Wayback Machine резко рухнула в этом году, но скоро всё придёт в норму

Служба Wayback Machine проекта Internet Archive, занимающаяся созданием и хранением копий интернет-страниц, сейчас переживает своего рода спад — за последний год число создаваемых копий резко сократилось, обнаружили в Niemen Lab.

 Источник изображения: archive.org

Источник изображения: archive.org

С 1 января по 15 мая 2025 года сервис Wayback Machine сохранил 1,2 млн страниц со 100 крупных новостных сайтов, а с 17 мая по 1 октября текущего года с тех же 100 сайтов были сохранены всего 148 628 копий страниц, что соответствует сокращению на 87 %. Причиной тому стал «сбой у ряда отдельных проектов архивирования, из-за которого было создано меньше архивов для некоторых сайтов», сообщил директор сервиса Wayback Machine Марк Грэм (Mark Graham). Он добавил, что некоторые сохранённые после 16 мая материалы пока не появились на сайте, «поскольку ещё не созданы соответствующие индексы».

В подробности господин Грэм предпочёл не вдаваться, ограничившись упоминанием «различных операционных причин», связанных с «распределением ресурсов». Но причина сбоя, по его словам уже устранена, и скоро сайт продолжит работать в прежнем режиме. За последние несколько лет у проекта Internet Archive возникали проблемы и юридического характера: некоммерческая организация проиграла апелляцию в судебном разбирательстве, связанном с оцифровкой книг; а звукозаписывающие компании потребовали у неё $700 млн за проект, в рамках которого в открытый доступ выкладывались оцифровки старых виниловых пластинок.

Архив интернета вновь оштрафовали за неудаление запрещённого контента — на 3,5 млн рублей

В Москве прошло заседание Таганского суда, который признал некоммерческую организацию Internet Archive виновной в административном правонарушении, выразившемся в неудалении запрещённого российским законодательством контента, в связи с чем назначил ей штраф в размере 3,5 млн рублей.

 Источник изображения: Pixabay

Источник изображения: Pixabay

«Internet Archive признана виновной в административном правонарушении, предусмотренном ч.2 ст. 13.41 КоАП (неудаление запрещённого контента), организации назначен штраф в размере 3,5 млн рублей», — сообщили корреспонденту агентства «Интерфакс» в пресс-службе суда.

До этого Internet Archive уже штрафовали несколько раз на 800 тысяч рублей за неудаление запрещённого в России контента, в том числе страниц с описанием рецепта изготовления «коктейля Молотова» и взрывных устройств, а также статей, признанных экстремистскими, с контентом, направленным на разжигание ненависти, страниц с экстремистской литературой и антисемитскими материалами.

На прошлой неделе её сервис Wayback Machine подвергся мощной DDoS-атаке, а также был взломан хакерами, которым удалось похитить данные 31 млн пользователей. Ответственность за DDoS-атаку на платформу взяла на себя хакерская группировка SN_Blackmeta. Как утверждает ресурс xakep.ru, за взломом платформы и DDoS-атакой стоят разные злоумышленники.

Internet Archive всё ещё не работает после взлома — на восстановление уйдёт ещё несколько дней

На этой неделе хакеры взломали сервис Wayback Machine, который принадлежит некоммерческой организации Internet Archive и позволяет пользователям просматривать сохранённые когда-то в прошлом страницы веб-сайтов. Во время DDoS-атаки на платформу злоумышленникам удалось похитить данные 31 млн пользователей сервиса, включая логины, адреса электронной почты и пароли в зашифрованном виде. Работоспособность Internet Archive будет восстановлена в течение нескольких дней.

 Источник изображения: pexels.com

Источник изображения: pexels.com

«Данные в безопасности. Сервисы отключены от сети, пока мы их изучаем и совершенствуем. Извините, но это необходимо. Сотрудники @internetarchive работают не покладая рук. Ориентировочные сроки: дни, а не недели», — заявил основатель платформы Брюстер Кейл (Brewster Kahle).

О взломе Internet Archive стало известно в середине недели. Посетители сайта archive.org обратили внимание на появление уведомления, которое оставили злоумышленники и в котором говорилось о взломе площадки. Позднее основатель Have I Been Pwned Трой Хант (Troy Hunt) сообщил, что в его распоряжение попал файл с украденными данными пользователей. Согласно имеющимся данным, последняя запись в украденной базе данных датирована 28 сентября 2024 года. Зарегистрированные на сайте Ханта пользователи могут получить предупреждение, если связанная с ними информация присутствует в украденной базе данных.


window-new
Soft
Hard
Тренды 🔥
Meta вложила миллиарды в ИИ, но Цукерберг признал: агенты не спешат умнеть 2 мин.
Сливший iOS 26 до анонса блогер свалил вину на своего сообщника 44 мин.
«Время — это конструкт»: научно-фантастический триллер Ontos от создателей Amnesia и Soma перенесли на 2027 год 56 мин.
Citrix анонсировала XenServer 9 — альтернативу решениям VMware 58 мин.
Американские правозащитники объявили соцсеть X серьёзной угрозой для конфиденциальности американцев 2 ч.
Relic анонсировала «захватывающую» роглайт-стратегию Company of Heroes 3: Final Stand — трейлер, дата выхода и подробности геймплея 2 ч.
Вопрос передачи доли в Anthropic властям США пока не обсуждался 7 ч.
Microsoft разрабатывала ИИ ОС, отличную от Windows — с глубокой интеграцией Copilot и агентов 12 ч.
Epic Games Store устроил раздачу классической игры I Have No Mouth, and I Must Scream о последних людях на Земле, которых пытает безумный суперкомпьютер 15 ч.
Авторитетный инсайдер опроверг закрытие Obsidian Entertainment и работу студии над новой Fallout 16 ч.
Sony уже придумала новое применение заводу, где делают диски для PlayStation 6 мин.
Самым популярным смартфоном в российской рознице в этом году стал iPhone 17 17 мин.
США разрешат сверхзвуковым авиалайнерам летать над городами, но при одном условии 42 мин.
Возвращение к DDR4 идёт полным ходом: Intel возобновила производство процессоров Raptor Lake 2 ч.
Учёные вдохновились пустельгой и разработают дрон, противостоящий порывам ветра 2 ч.
2 июля начали принимать работы для участия в фотоконкурсе «Снято на Camon» компании Tecno 2 ч.
Квартальные продажи Ethernet-коммутаторов взлетели на 40 %, а NVIDIA выбилась в лидеры в ЦОД-сегменте 3 ч.
Илон Маск признался, что объёмы выпуска роботов Tesla Optimus на первых порах будут скромными 4 ч.
Kioxia начала поставлять образцы передовой 332-слойной памяти 3D NAND десятого поколения 5 ч.
Новая статья: Снято в Голливуде? Почему Стэнли Кубрик физически не смог бы подделать лунную походку 10 ч.