?

Log in

No account? Create an account
о доступе к статьям, или как 60 терабайт спасут цивилизацию - Поклонник деепричастий [entries|archive|friends|userinfo]
Anatoly Vorobey

[ website | Website ]
[ userinfo | livejournal userinfo ]
[ archive | journal archive ]

Links
[Links:| English-language weblog ]

о доступе к статьям, или как 60 терабайт спасут цивилизацию [сент. 14, 2017|08:48 pm]
Anatoly Vorobey
[Tags|, ]

Ну как, о том, как Элбакян сначала забанила Sci-Hub (http://sci-hub.cc/) в России, а потом разбанила через три дня, уже забыли?

Самое время поговорить о доступе к научным статьям, как без этого не обойтись и как это сохранить в будущем. Во время скандала с Элбакян было много записей и комментариев от ученых в разных дисциплинах в России, от студентов и сотрудников в лабораториях, о том, как без Sci-Hub они не представляют свою научную деятельность. Я обращаюсь ко всем этим людям и призываю их обратить внимание на проект Либген (http://libgen.io или http://gen.lib.rus.ec) и задуматься о его поддержке.

Еще раз подчеркну, что я не пытаюсь умалить вклад Александры Элбакян в дело свободного доступа к научным статьям - и этот вклад, и тот личный риск, на который она пошла и идет, несомненны (не забудем о судьбе Аарона Шварца - Элбакян ведь, по сути, выполнила и перевыполнила план, попытка заняться которым привела к аресту Шварца, уголовному делу против него и его самоубийству). Хронологически вклад Элбакян вместе с работой анонимных хранителей проекта Либген, в деле доступа к научным статьям, выглядит примерно так:

2011 - Элбакян запускает Sci-Hub. В первой версии проект позволяет вам заходить на сайты издателей, где лежат статьи, через чужие прокси с доступом; вы сами должны находить, где нажать, чтобы скачать статью, и скачанная статья остается только у вас и нигде не сохраняется.

2013 - проект Либген начинает давать доступ к научным статьям, с начальной базой примерно в 20 миллионов статей (источник этой начальной базы мне неизвестен). Они кооперируются с Sci-Hub, так что статьи, скачанные через Sci-Hub, автоматически копируются в базу данных Либген.

2014 - Элбакян переписывает движок Sci-Hub так, что он автоматически находит для пользователя, как скачать статью с сайта производителя, и скачивает ее (это чрезвычайно повышает удобство проекта). Она также запускает собственные сервера для хранения скачанных статей, чтобы не скачивать их снова и снова у издателя. При этом копии продолжают поступать в базу данных Либген. Элбакян копирует на свои сервера 20 миллионов статей Либгена.

2014-2017 - вдобавок к тем статьям, что скачиваются по запросам пользователей, Элбакян инициирует систематическое скачивание всех статей через свой движок из множества журналов и сайтов издателей. Эти два источника - запросы пользователей и скачивание по собственной инициативе проекта - доводят общее кол-во статей с 20 миллионов до 60 миллионов. Копии продолжают поступать в Либген.

Вклад Элбакян состоит в: 1) централизованной организации доступа к многим разным базам данных научных статей, пользуясь для этого множеством разных логинов/паролей, собранных за кулисами (предположительно пожертвованных добровольцами или добытых хакерами или и то и другое); 2) автоматизации скачивания PDF-версии статьи из каждой такой базы данных, и хранения на кэш-серверах, чтобы не надо было скачивать снова и снова; 3) автоматической догрузки множества статей по собственной инициативе проекта, для пополнения базы данных.

Вклад Либгена состоит в: 1) базе данных для всех статей, включая Sci-Hub'овские, с работающим поиском по именам и заголовкам (в Sci-Hub нет поиска, надо знать точный идентификатор конкретной статьи) 2) начальной базе в 20 миллионов статей 3) все статьи, весь код проекта, все базы данных - все открыто и может быть скачано и скопировано всеми желающими.

Ну и конечно, надо добавить сюда, что статьи это только одна из баз данных Либгена. Кроме этого, там есть художественная литература по-русски, на других языках, комиксы, и что самое важное - научные книги, первоначальный фокус этого проекта. Его ценность невозможно переоценить, по-моему; для меня лично он был и есть еще ценнее, чем Sci-Hub - хоть я понимаю, что для многих работащих ученых Sci-Hub важнее. Не будь Sci-Hub и раздела статей в Либгене, статьи все равно можно доставать через сообщества волонтеров с доступом, высылающих статьи желающим (главный способ получения статей до Sci-Hub). Не будь сотен тысяч оцифрованных книг в Либгене - включающих в себя практически полный набор учебников любого уровня по многим важным дисциплинам, и значительную часть монографий - их нигде больше не добыть, кроме как придя на своих двоих в библиотеку большого университета.

Но вернемся к научным статьям. Сейчас, в 2017-м году, больше 60 миллионов уже скачанных научных статей - по некоторым оценкам, более 60% массива современных научных статей - лежат на сайтах двух проектов: Sci-Hub и Libgen. Новые статьи, которые качаются через Sci-Hub, поступают в оба проекта. Но в одном из них, в Sci-Hub, никто не может сделать зеркало всех статей, а только смотреть по одной через капчу. Никто не может посмотреть на код проекта или сделать копию его базы данных. Все сервера и доступ к ним контролируются одним человеком, которая страдает от запредельного, галактического ЧСВ, и на почве этих страданий готова вырубать доступ целым странам, если ей не понравилась чья-то критика. Если завтра Элбакян вздумается закрыть проект, никакой копии Sci-Hub нет.

В другом проекте, Libgen, все накопленные данные (и статьи, и книги, и все остальное) раздаются всем желающим через торренты. Код проекта открытый. Периодические копии базы данных доступны к скачиванию прямо с сайта. Есть несколько зеркал. Хранители проекта, известные только под псевдонимами и не страдающие желанием прославиться, движимы судя по всему желанием раздать все это богатство как можно шире и поощряют создание зеркал и копирование данных.

Поэтому, вот что я хочу сказать, например, научному работнику в России - или любой другой стране, где у него нет легального доступа к необходимым базам данных и очень нужен доступ к научным статьям. Если, предположим, вы работаете в институте или большой научной лаборатории и идеология свободного доступа к научным статьям очень вам по душе. Если вас беспокоит возможность того, что Sci-Hub завтра закроют враги или закроет его же создательница по очередному капризу. У меня есть для вас очень дельный совет из двух частей. Во-первых, по адресу http://libgen.io/dbdumps/scimag/ скачайте дамп текущей версии базы данных всей статей. Цена вопроса - 7 гигабайт, или 26GB текстового файла в развернутом виде, и вот у вас есть все метаданные 66 миллионов статей. Я запустил скрипт на этой базе данных и посчитал, что общий объем всех статей - 54 терабайта. Поэтому вторая часть совета напрашивается. 54TB это много, но в рамках бюджета целого университета или большой научной лаборатории или фирмы - не очень много. Поднимите сервер или сервера с такими объемами жестких дисков и поставьте качать все торренты с http://libgen.io/scimag/repository_torrent/. Это займет какое-то время, может пару месяцев, но в конце этого процесса у вас будет копия всех (*) научных статей западного мира. Своя мини-копия достижений научной цивилизации. У вас на диске. Под вашим контролем. А еще примерно 30TB дадут вам возможность и все торренты книг тоже скачать. А если вы еще и продолжите сидить это все, так и вообще цены вам нет.

(*) художественное преувеличение, не всех, но значительной части.

Будущее свободного доступа к научной литературе - будущее вашего доступа к научной литературе - в ваших руках.
СсылкаОтветить

Comments:
Страница 1 из 2
<<[1] [2] >>
From: dmpogo
2017-09-14 06:03 pm
Я сомневаюсь что университету/фирме/лаборатории сподручно заниматься нелегальщиной под своим именем
(Ответить) (Thread)
[User Picture]From: xgrbml
2017-09-14 06:19 pm
В сем же сомневаюсь :(
(Ответить) (Parent) (Thread) (Развернуть)
[User Picture]From: igor734
2017-09-14 06:28 pm

В другом проекте, Libgen, все скопленные данные


Звучит как "оскопленные" :))). Правильно - "накопленные данные".

(Ответить) (Thread)
[User Picture]From: avva
2017-09-14 06:31 pm
Ok, спасибо :)
(Ответить) (Parent) (Thread)
From: (Anonymous)
2017-09-14 06:28 pm
Чтобы менять мир, надо быть немножко ебанутым.

Очень часто подтверждается.
(Ответить) (Thread)
[User Picture]From: spamsink
2017-09-14 07:58 pm
одним человеком, которая страдает

Это в контексте логично, но ощущается всё равно аграмматично.
(Ответить) (Thread)
From: bbb
2017-09-14 07:59 pm
Новое зеркало/клон бывшей гигапедии с продолжающимся пополнением - http://b-ok.org
(Ответить) (Thread)
[User Picture]From: azangru
2017-09-14 10:49 pm
лайк
(Ответить) (Parent) (Thread)
[User Picture]From: nikaan
2017-09-14 09:01 pm
ну вот у меня через vpn Женевского университета libgen.io не открывается. Видимо, заблокирован, потому что там просто в открытом доступе всё лежит. а sci-hub почему-то не заблокирован.
(Ответить) (Thread)
[User Picture]From: kostya_h
2017-09-15 07:46 am
Кстати, да. С европейского айпишника (Нидерланды) тоже глухо. Похоже, блочат западные IP от греха подальше.:)
(Ответить) (Parent) (Thread) (Развернуть)
From: notes4myfamily
2017-09-15 06:16 am
Информация наше все.
Репостну
(Ответить) (Thread)
[User Picture]From: rusty_spur
2017-09-15 06:40 am
О, спасибо огромное. У Вас я нашел ответ на свой вопрос.

60 ТБ... Можно конечно и дисков накупить... А если положить на всякие яндекс или гугль диски?
(Ответить) (Thread)
[User Picture]From: avva
2017-09-15 06:44 am
Я не знаю специфики российских облачных дисков, но на западных (Гугл, Амазон, Майкрософт итд.) вам это намного дороже обойдется на данный момент, чем свои диски покупать.
(Ответить) (Parent) (Thread) (Развернуть)
[User Picture]From: freedom_of_sea
2017-09-15 08:30 am
а автор может статью, опубликованную в платном журнале, выложить потом в пабмед или арксив?
(Ответить) (Thread)
[User Picture]From: nikaan
2017-09-15 09:03 am
математики так делают. наверное, нельзя, но проблем ни у кого, насколько я знаю, не было. Издательствам лень проверять.
(Ответить) (Parent) (Thread)
[User Picture]From: r_l
2017-09-15 10:29 am
Для гуманитарных дисциплин большой растущий архив работ - academia.edu.
Работы выкладываются авторами (часто с нарушением т.н. "прав" издательств и подписанных договоров).


Edited at 2017-09-15 10:36 (UTC)
(Ответить) (Thread)
From: bbb
2017-09-15 12:32 pm
Кстати, почему так получилось, что академия.еду остается заповедником гуманитариев? Почему прочие не подтягиваются?
(Ответить) (Parent) (Thread) (Развернуть)
[User Picture]From: lefantasy
2017-09-15 12:13 pm
Какой замечательный образец инфантилизма.

Сначала кричали: да зачем нам эта сталинистка, мы наделаем кучу зеркал.
Как дело до дела дошло: ой, что-то сложновато получается, а пусть это кто-нибудь другой сделает, только с правильными убеждениями. А мы им респекты выскажем.

(Ответить) (Thread)
[User Picture]From: r_l
2017-09-15 04:38 pm
Интересно, а вот эту фразу прочесть и понять, о чем она, Вы можете?
А эту?
(Ответить) (Parent) (Thread)
[User Picture]From: shadow_ru
2017-09-15 12:19 pm
Вы писали, что используете sci-hub несколько раз на дню. А для чего, если не секрет?
(Ответить) (Thread)
[User Picture]From: avva
2017-09-15 02:00 pm
Несколько раз в неделю, а не несколько раз на дню. Меня постоянно интересуют самые разные вопросы, по котором самые квалифицированные ответы есть в научных статьях, вот я их и читаю. Иногда это медицина, иногда социология или психология, иногда математика-физика.
(Ответить) (Parent) (Thread)
[User Picture]From: myugor
2017-09-15 04:03 pm
Для меня libgen куда полезнее (хотя поиск по заголовку скорее неудобство, для поиска есть scholar). Весь архив старых публикаций - в нем, книжный тоже. Прочесть сегодня свежие номера журналов я не рвусь, а через полгода они уже окажутся в libgen. Но открытые журналы, особенно то, что ими занялись такие киты как группы Nature и Science - полезнее обоих. Настоящее направление - здесь, а не в scihub.
Плюс researchgate и подобные, разумеется.

Edited at 2017-09-15 16:09 (UTC)
(Ответить) (Thread)
[User Picture]From: p2004r
2017-09-15 08:07 pm
1. На стадии "Колхоз" (размеры + состояние репрессивного законодательства на то время) это ещё можно было содержать локальному энтузиасту, сейчас это могут делать только в режиме "организованного сопротивления" "специально обученные люди".

Все что превышает по размеру возможности обычного ПК хранить и раздавать информацию пытаться сделать массовым движением энтузиастов просто утопия.

Привлечь ресурсы университетов вообще подстава и университета и работника который так попытается сделать. Всегда есть конфликты и такой крючок как нелегальное копирование обязательно кто то использует.

Просто надо обязательно зафиксировать факт -- это (система свободного доступа к информации) есть и успешно _много_ лет работает эволюционно адаптировавшись к куче _реальных_ организационных и технических проблем.

"Быстрый интернет" есть теперь везде и локальные копии (зеркала) имеют смысл только для регионов с плохой внешней связанностью (хотя еще вопрос остались ли такие вообще).

2. Все же эти "камингауты" увы продолжают быть объективно вредны этой сложившейся системе свободного доступа к информации.

Если так хочется помочь, то действительно можно работать над развитием софта Либгена в сторону снижения требований к ресурсам, распределёности, легкости зеркалирования-кеширования. То есть заниматься абсолютно легальной и полезной для проекта деятельностью доступной профессионалу в области программирования.

То что часть софта (обеспечивающего откровенно нарушающую копирайт деятельность) прячется "от общественности", так это _абсолютно_ правильно. Зачем выставлять код, в котором можно найти путем анализа его устройства, возможность (пусть гипотетическую) автоматизации деаномизации (и наказания на эти самые миллионы исковые долларов) действующих прокси?

PS Таким образом резюмируем -- Надо просто не мешать "быть Данко" тем, у кого есть для этого достаточно решимости и сил. (по крайней мере хотя бы постоянно "не вкладывать персты в рану" этим Данко)
(Ответить) (Thread)
[User Picture]From: grihanm
2017-09-16 06:37 pm

Интересно, на сколько терабайт уберется вся культурная информация, накопленная человечеством и с какой скоростью ее количество растет?

(Ответить) (Thread)
Страница 1 из 2
<<[1] [2] >>