Wprowadzenie do ochrony i archiwizacji osobistych danych multimedialnych

Wstęp

Obecnie produkujemy liczne dane multimedialne za pośrednictwem przeróżnych urządzeń i aplikacji. Niektóre treści cyfrowe wymagają ochrony i zachowania ponieważ ukazują wydarzenia, sytuacje, miejsca i osoby, które w sposób szczególny związane są z naszym życiem osobistym. Stanowią naszą pamięć cyfrową.

Niestety trudno zachować wszystko, mimo tego, że jest to powszechna praktyka. Tworzymy tzw. “ciemne archiwum”, które cechuje się dużym rozmiarem i trudnościami z dostępnością [10]. Ciężko znaleźć właściwe zdjęcie lub film gdy pliki i foldery są nieuporządkowane i brakuje jakichkolwiek opisów. Co gorsza, awarie sprzętu i kłopoty spowodowane przez formaty plików mogą uniemożliwić dostęp do danych i unicestwić nasze wspomnienia [10].

Musimy zatem podjąć starania w celu utworzenia archiwum, które będzie wspierać naszą ludzką pamięć [10]. Właściwie zarządzane archiwum cyfrowym może być przydatne zarówno nas, jak również dla naszych dzieci i wnuków. Niniejszy przewodnik podejmuje próbę odpowiedzi na pytania jak przechowywać nasze multimedia, w jakich formatach, na jakich nośnikach pamięci, jak zarządzać kolekcją cyfrową, w jaki sposób selekcjonować dane oraz jak wykonywać kopie zapasowe?

Prosta lista kontrolna

Poniższa wizualizacja ma na celu wsparcie w realizacji zadań związanych z ochroną i archiwizacją cyfrową osobistych multimediów. Pomaga zapewnić właściwą kolejność i kompletność wykonywania poszczególnych czynności.

Dane & obiekty cyfrowe 

Na początek parę definicji i nieco teorii. Według Cambridge dictionary, dane to “informacje w formie elektronicznej, które mogą być przechowywane i przetwarzane przez komputer” [4]. Dane znajdują się na samym dole tzw. Piramidy wiedzy i musza być przetworzone, aby stały się informacją oraz ustrukturyzowane, aby stały się wiedzą. 

Co ciekawe, dane egzystują w formie plików w różnych formatach, dlatego można je także nazwać obiektami cyfrowymi lub obiektami informacji. Mogą to być obiekty ucyfrowione (np. zdigitalizowane fotografie) lub “urodzone cyfrowo” (np. film nagrany kamerą sportową GoPro). Niestety, obiekty tego typu są skłonne do defektów. Za Stacy Kowalczyk, autorką książki pt. “Digital Curation for Libraries and Archives” można powiedzieć, że obiekty cyfrowe są z natury złożone (np. związane z formatem), nieprzejrzyste (np. wymagające właściwego oprogramowania i sprzętu) i kruche (np. starzeją się i nie są trwałe) [9]. 

Kuratorstwo cyfrowe, ochrona cyfrowa i archiwistyka cyfrowa

W instytucjach pamięci (biblioteki, archiwa i muzea - ang. libraries, archives, museums - LAM) oraz instytucjach nauki, wypracowywane są najlepsze praktyki i teorie w zakresie ochrony cyfrowej (ang. digital preservation), archiwizacji cyfrowej (ang. digital archiving) i opieki cyfrowej (eng. digital curation). Generalnie kuratorstwo cyfrowe obejmuje zarządzanie danymi, dodawanie wartości do danych oraz zapewnienie długoterminowego dostępu do użytecznych danych.

Jednak opieka cyfrowa realizowana jest nie tylko w instytucjach LAM i uczelniach ale również poza nimi np. w środowiskach artystycznych lub różnego typu społecznościach internetowych. Zasadniczo, w kontekście cyfrowych kolekcji prywatnych, wszyscy mamy do czynienia z osobistymi danymi, informacjami i kolekcjami zdjęć i filmów, które wymagają właściwego zarządzania i ochrony. 

Spoglądając na dostępne możliwości, o wiele lepiej sytuacja wygląda z krótko i średnioterminowym przechowywaniem. W tych celach można stosować różne nośniki pamięci masowej lub korzystać z usług chmurowych. Wyzwanie stanowi jednak ochrona długoterminowa [10]. 

Nośniki danych

Technologia i nośniki stają się przestarzałe. Poza tym nośniki posiadają różną trwałość i ograniczoną długość życia. Muszą być także właściwie używane i przechowywane. Istnieje wiele nośników danych, które mają swoje wady i zalety. Do najbardziej powszechnych należą pendrive (pamięć USB), karta pamięci SD lub microSD, dysk twardy HDD bądź dysk półprzewodnikowy SSD, dysk zewnętrzny (HDD lub SSD), dysk optyczny DVD, dysk optyczny Blu-ray lub płyta kompaktowa CD-R. Nie rekomenduje się zabezpieczania danych na płytach CD i DVD, ponieważ ich żywotność jest bliżej nieokreślona, a poza tym, jeśli są źle przechowywane i użytkowane, mogą ulec zniszczeniu. Podobnie nie rekomendowane są pamięci USB typu pendrive, ponieważ może ulec zniszczeniu lub zagubieniu. Dobrym rozwiązaniem są, wewnętrzne lub zewnętrzne i przenośne, dyski talerzowe HDD. Właściwie przechowywane mogą wykazać się trwałością i długim czasem życia.

Użytecznym, ale też kosztownym, rozwiązaniem jest serwer NAS, który umożliwia podłączenie zasobów dyskowych do sieci. Za pośrednictwem NAS możemy utworzyć macierz RAID, która służy do przechowywania danych i umożliwia ustanowienie wspólnej przestrzeni pamięci z kilku podłączonych dysków twardych. Rozwiązanie gwarantuje zabezpieczenie przed awariami dysków oraz umożliwia tworzenie kopii lustrzanych przechowywanych danych. Niestety urządzenie generuje koszty związane z poborem energii, poza tym w celu zabezpieczenia pracy NAS, w przypadku awarii sieci elektrycznej, wskazane byłoby podłączenie zasilacza awaryjnego UPS. Co ciekawe, NAS może oferować dodatkowe oprogramowanie umożliwiające “inteligentne odkrywanie multimediów w kolekcji. 

Dysk twardy
Talerze dysku twardego HDD

3-2-1 czyli kopia bezpieczeństwa

Dobrym rozwiązaniem jest przyjęcie zasady 3-2-1. Należy wykonać 3 kopie danych, przy czym przynajmniej dwie kopie powinny znajdować się na różnych nośnikach. Dwie kopie mogą znajdować się fizycznie blisko siebie (np. w naszym domu), ale trzecia kopia powinna być przechowywana w innej lokalizacji z dala od miejsca, gdzie przechowywane są tamte 2 kopie.

Zaleca się robienie kolejnych nowych kopii archiwalnych co 5 lat. Dodatkowo dane należy kontrolować przynajmniej raz w roku, zdarza się bowiem, że nośniki ulegają awarii. Warto również wykonać rejestr nośników pamięci i zapisanych na nich kopii bezpieczeństwa. Biblioteka Kongresu zaleca również kopiowanie i zabezpieczenie pliku tekstowego z rejestrem archiwum, o którym będzie mowa dalej.

Archiwizacja osobista wg Biblioteki Kongresu

Problematyka związana z ochroną osobistych kolekcji cyfrowych i zarządzaniem informacją osobistą stała się przedmiotem badań naukowych oraz interesujących publikacji. Powstały również takie praktyczne zasoby jak wytyczne Biblioteki Kongresu. Warto się z nimi bliżej zapoznać albowiem mają za zadanie “zachowanie cyfrowych wspomnień” i dotyczą archiwizacji fotografii cyfrowych, dźwięków, cyfrowych filmów wideo, etc. Zasadniczo trzeba podjąć 4 kroki:

  1. Należy określić na jakich urządzeniach znajdują się cyfrowe treści.
  2. Należy dokonać selekcji, zachowując tylko najważniejsze treści.
  3. Należy uporządkować treści.
  4. Należy wykonać kopie zapasowe.

Strategie kuratorstwa

Obiekty cyfrowe generują kłopoty. Toteż, jak zauważa Kowalczyk, w obszarze praktyk związanych z kuratorstwem cyfrowym w LAM powstało kilka strategii mających za zadanie zabezpieczenie wiedzy w formie cyfrowej. Należą do nich ochrona technologii, emulacja technologii i migracja danych. Każda z tych strategii ma swoje wady i zalety, ale najbardziej powszechna jest migracja danych[9].

Polega na zamianie (konwersji) formatów już przestarzałych na nowe, najlepiej formaty dedykowane archiwizacji. Migracja może odbywać się zarówno podczas gromadzenia danych, jak też na etapie przechowywania danych w archiwum. Migracja może odbywać się także w ramach przenoszenia danych z przestarzałego (lub wadliwego) nośnika danych na nowy. Niestety, wadą tej strategii jest możliwość uszkodzenia danych podczas migracji [9], np. podczas próby skopiowania danych z zepsutego nośnika. 

Formaty (archiwalne)

Pliki, za pośrednictem formatu, zapewniają dostęp do danych. Dlatego pliki należy chronić i szczególnie dbać o format. Wikipedia twierdzi, że plik, to “uporządkowany zbiór danych o skończonej długości, posiadający szereg atrybutów i stanowiący dla użytkownika systemu operacyjnego całość” [14]. Z kolei format pliku to “ustalony standard zapisu informacji w pliku danego typu [...] wyróżnia się powszechnie znany, czyli otwarty format pliku (o publicznie dostępnej strukturze) oraz utajniony przez producenta programu format zamknięty” [8]. Wyróżniamy różnego typu formaty plików danych, np. formaty tekstowe, graficzne, audio lub wideo. Niestety formaty plików starzeją się i zmieniają, co przekłada się na użyteczność danych. Dlatego tak ważna jest strategia migracji danych. 

Jak zasygnalizowano, istnieją formaty otwarte oraz formaty zamknięte. Generalnie należy stosować długoterminowo stabilne formaty otwarte, posiadające dostępną dokumentację i strukturę, a najlepiej będące otwartymi standardami, stanowiącymi normę ISO. W każdym razie na potrzeby archiwizacji cyfrowej należy stosować formaty archiwalne, które ze względu na wysoką jakość reprezentowanych w pliku informacji zajmują dużo miejsca. Przykładowo TIFF’y mogą być ogromne, więc ich utrzymanie generuje koszty. Kłopot stanowi również udostępnianie tak dużych plików w sieci.

Jednak możliwe jest tworzenie plików pochodnych w lekkich formatach przystosowanych do udostępniania. Przykładowo zdjęcie zeskanowane w formacie TIFF może zostać przekonwertowane do lżejszego formatu JPEG i udostępnione rodzinie lub znajomym w sieci. 

Kompresja 

Niektóre formaty umożliwiają kompresję. Kompresja może być stratna lub bezstratna. Kompresja stratna polega na “nieodwracalnym zmniejszeniu objętości danych” [14], z kolei kompresja bezstratna to “metoda kompresji informacji do postaci zawierającej zmniejszoną liczbę bitów, gwarantująca możliwość odtworzenia informacji z postaci skompresowanej do identycznej postaci pierwotnej” [14]. Przykładem formatów stosujących kompresję stratną jest JPEG (grafika) lub MP3 (audio), natomiast bezstratną PNG (grafika) lub FLAC (audio), zaś format nieskompresowany to np. WAV (audio).

Formaty wspierające kompresję mogą posłużyć do tworzenia plików pochodnych na bazie plików archiwalnych. Niestety te ostatnie potrafią dużo ważyć, dlatego do ich archiwizacji i ochrony wymagana jest nie tylko właściwa selekcja ale również odpowiednie urządzenia cyfrowe i nośniki pamięci. 

Dobre praktyki zaczerpnięte z LAM

Jak zasygnalizowano, istnieją dobre praktyki, wypracowane w LAM, dotyczące formatów plików. Za Kowalczyk można powiedzieć, że w celu długoterminowej archiwizacji konieczna jest unifikacja formatów i stosowanie formatów otwartych. Formaty plików tekstowych to m.in. powszechnie stosowany, czytelny maszynowo, format tekstowy TXT lub otwarty format XML, który jest niezależny od platformy i oprogramowania [9]. 

Jeśli idzie o pliki graficzne to zdjęcia warto przechowywać w uniwersalnym formacie TIFF. Fotografie z urządzeń cyfrowych winny być zapisywane do formatu surowego RAW, a następnie migrowane do TIFF (najlepiej bez kompresji). Z kolei tradycyjne obiekty graficzne powinny być ucyfrowione do TIFF lub fotografowane do RAW i następnie migrowane do TIFF (najlepiej bez kompresji). Dokumenty, które powstały w środowisku cyfrowym, winny być zapisywane do otwartego i ustandaryzowanego formatu PDF. Ciekawy jest także otwarty i ustandaryzowany format PNG, zalecany jako format archiwalny. Jako format archiwalny rekomendowany jest też uniwersalny format SVG, który przeznaczony jest do obsługi grafiki wektorowej [9]. 

W kontekście formatów audio, Kowalczyk zaleca migracje urodzonych cyfrowo nagrań do archiwalnego formatu np. WAV. Digitalizowane nagrania także powinny być zapisane w nieskompresowanym formacie WAV. W kwestii formatów wideo, autorka zaleca zapisanie filmów z urządzeń cyfrowych do takich formatu archiwalnych jak MPEG-4 lub MPEG-2 [9].

Zdjęcia i filmy ze smartfonów, kamer i innych urządzeń 

TIFF to format ciężki. Niemniej bardzo dobry pod względem długoterminowej archiwizacji. Nasze telefony zazwyczaj zapisują zdjęcia, różnej rozdzielczości i jakości, do popularnego formatu JPEG. Jest to standard ISO, który może być stosowany jako format archiwalny. JPEG jest formatem “ekonomicznym” albowiem, ze względu na możliwość kompresji stratnej, pliki posiadają mały rozmiar i nie zajmują dużo miejsca na nośnikach pamięci masowej oraz mogą być udostępniane w sieci.

The Family Curator zauważa jednak, że często używane i edytowane pliki JPEG ulegają zniszczeniu. Z drugiej strony społeczność genealogiczna potrzebuje użytecznych plików, które zapewniają edycję, udostępnianie i użytkowanie. The Family Curator podpowiada, że w zależności od indywidualnych potrzeb i możliwości, istnieją trzy rozwiązania. Oczywiście obiekty analogowe skanujemy do formatu TIFF, zaś zdjęcia cyfrowe wykonujemy w najwyższej jakości do formatu JPG. Wówczas, po pierwsze, możemy zamienić JPG do TIFF w celach archiwizacji. Z TIFF można następnie tworzyć kolejne JPG. Druga metoda polega na utworzeniu i zarchiwizowaniu kopii JPG i pracy z oryginałem aż do momentu zniszczenia lub utraty pliku. Trzecia opcja to korzystanie z nieinwazyjnego edytora [1]. 

Wideo powinniśmy nagrywać i archiwizować w najwyższej jakości. Często nasze smartfony nagrywają filmy do kontenera MPEG-4, mianowicie mp4. Filmy wymagają odpowiednio więcej miejsca na nośnikach pamięci masowej.  

Metadane

Metadane to dane o danych. Metadane umożliwiają m.in. opisanie danych, zapewniają im kontekst, a także wspierają wyszukiwanie danych. Zwiększają zatem użyteczność danych (np. w archiwum cyfrowym lub katalogu bibliotecznym). Metadane mogą znajdować się m.in. samych plikach, w ich nazwach i opisach. Istnieje wiele formatów metadanych, np. Dublin Core służący do opisu obiektów (cyfrowych i analogowych) bądź MPEG-21, który służy do opisu i wymiany multimediów [9].

W jaki sposób organizować prywatne kolekcje zdjęć i filmów? 

Powinniśmy zachowywać i opisać tylko to, co jest naprawdę ważne w celu zabezpieczenia naszych wspomnień. Cyfrowe archiwum, niczym “proteza”, wspierać będzie naszą pamięć.

Niestety obiekty cyfrowe w perspektywie długoterminowej mogą zostać utracone (losowo “zapomniane”) m.in. ze względu na rozmaite uszkodzenia nośników pamięci bądź starzenie się technologii i formatów. Może to spowodować trwałe utracenie naszych wspomnień. Dlatego też autorzy książki “Personal Multimedia Preservation: Remembering or Forgetting Images and Video” zalecają świadome, systematyczne zarządzanie zapominaniem i zarazem wybiórcze podejście do ochrony prywatnych multimediów. Postawa “zachowaj lub zapomnij” inspirowana jest procesem zapominania w ludzkim mózgu i skupia się na tym, co należy zachować i zabezpieczyć [10].

Selekcja

Należy dokonać selekcji pod względem jakości i estetyki zgromadzonych multimediów. Następnie trzeba usunąć wszystkie duplikaty oraz prawie duplikaty [10]. Usuwamy zatem obiekty słabej jakości oraz takie, które się powtarzają np. zawierają te same lub podobne ujęcia, zachowując tylko plik o najwyższej jakości.

Koncepcje i zdarzenia

Trzeba przemyśleć co prezentuje zdjęcie lub film oraz jaki był zamysł wykonania zdjęcia lub nagrania filmu? Następnie możemy zastanowić się, jak właściwie zorganizować kolekcję na podstawie zdarzeń. Powinniśmy wybrać takie materiały, które są charakterystyczne dla zbioru, za pomocą których będziemy w stanie utworzyć historię reprezentującą kolekcję.

Struktura

Zasadniczo należy utworzyć folder główny np. Archiwum, a w nim stworzyć intuicyjną strukturę folderów (taksonomia spójna i przewidywalna). Między danymi i folderami można utworzyć powiązania. Pamiętajmy jednak, że foldery mają reprezentować poszczególne zdarzenia. 

Metadane

Tak oto doszliśmy do metadanych, notacji i opisu obiektów cyfrowych. W tej materii możemy oprzeć się na przewodniku “Preserving Your Research Data” autorstwa Jamesa Bakera. Według badacza, metadane należy umieścić w nazewnictwie struktury katalogów i plików [2].

Można przyjąć notację rok-miesiąc-data + informacje semantyczne i / lub formalne w nazwach plików i katalogów. Po dacie mogą wystąpić imiona i nazwiska, tematy, miejsca, wydarzenia, np.: 2022-07-20_Gdańsk_Wycieczka_Marcin_Agnieszka

Plik tekstowy

Zasadniczą kwestią jest dodanie pliku tekstowego (na zasadzie Readme.txt) do folderu głównego oraz wybranych podfolderów. Plik tekstowy w głównym folderze powinien zawierać rejestr całej struktury oraz najważniejsze informacje o archiwum.

Kolejne pliki tekstowe mogą przyjąć nazwę odpowiadającą podfolderom, w których się znajdują. Pliki tekstowe mogą zawierać następujące informacje: data utworzenia, miejsce, autor, co przedstawiają zdjęcia / filmy, jakie koncepcje i wydarzenia zostały utrwalone, jakie osoby zostały zarejestrowane, jakie podfoldery znajduje się wewnątrz (struktura).

Dzięki powyższym zabiegom nasze dane będą czytelne maszynowo, a komputer będzie mógł je sortować chronologicznie. Będą też bardziej zrozumiałe dla człowieka, a także dostępne, ponieważ system operacyjny będzie mógł wyszukiwać informacje zawarte w nazwach plików i folderów oraz pełnym tekście. 

Otwarty narzędziownik

Zasygnalizowane poniżej otwartoźródłowe oprogramowanie umożliwia przetwarzanie multimediów i dostępne jest dla każdego za darmo. Może zaoszczędzić czas, np podczas wsadowej zmiany formatu kilkudziesięciu fotografii cyfrowych.   

Podsumowanie

Niczym kuratorzy cyfrowi selekcjonujemy, dodajemy wartość do kolekcji i próbujemy zapewnić długoterminowy dostęp do danych. Jednak zgwarantowanie dostępności do uporządkowanych kolekcji prywatnych danych wymaga nakładu czasu, odpowiednich praktyk, a także środków finansowych. Ochrona cyfrowa potrzebuje "zarządzania w sposób aktywny".   

Dzięki archiwalnym zasobom cyfrowym możemy wesprzeć naszą pamięć i przeżyć najlepsze chwile raz jeszcze. Jednocześnie ochrona umożliwia zabezpieczenie cyfrowych reprezentacji najważniejszych i najciekawszych momentów i wspomnień z naszego życia dla przyszłych pokoleń.

Bibliografia

  1. Archiving JPG Scans and Photos from Your Flip-Pal Mobile Scanner, Digital Camera, and Mobile Phone [na:] „The Family Curator”, https://thefamilycurator.com/archiving-jpg-scans-and-photos-from-your-flip-pal-mobile-sca/, 12 lipca 2018 r.
  2. Baker, J. (2014) Preserving Your Research Data. Programming Historian. [online]. https://programminghistorian.org/en/lessons/preserving-your-research-data 
  3. Beagrie, N. (2005) Plenty of Room at the Bottom? Personal Digital Libraries and Collections. D-Lib Magazine. [Online] 11 (06): http://www.dlib.org/dlib/june05/beagrie/06beagrie.html 
  4. Data [na:] Cambridge Dictionary https://dictionary.cambridge.org/pl/dictionary/english/data
  5. DIKW pyramid, [w:] Wikipedia, 2022.https://en.wikipedia.org/wiki/DIKW_pyramid 
  6. Format pliku, [w:] Wikipedia, wolna encyklopedia, 2022. https://pl.wikipedia.org/wiki/Format_pliku 
  7. Kompresja bezstratna, [w:] Wikipedia, wolna encyklopedia, 2021. https://pl.wikipedia.org/wiki/Kompresja_bezstratna
  8. Kompresja stratna, [w:] Wikipedia, wolna encyklopedia, 2021. https://pl.wikipedia.org/wiki/Kompresja_stratna
  9. Kowalczyk S.T., Digital Curation for Libraries and Archives / Stacy T. Kowalczyk., Santa Barbara, California 2018.
  10. Mezaris V., Niederée C., Logie R.H. (red.), Personal Multimedia Preservation: Remembering or Forgetting Images and Video, Springer International Publishing 2018.
  11. Personal archiving, [w:] Wikipedia, 2020.https://en.wikipedia.org/wiki/Personal_archiving 
  12. Personal Digital Archiving | Digital Preservation - Library of Congress [na:] https://digitalpreservation.gov/personalarchiving/
  13. Personal information management, [w:] Wikipedia, 2021. https://en.wikipedia.org/wiki/Personal_information_management 
  14. Plik danych, [w:] Wikipedia, wolna encyklopedia, 2021. https://pl.wikipedia.org/wiki/Plik_danych 
  15. Świgoń M., Indywidualne zarządzanie wiedzą, „PTINT Praktyka i Teoria Informacji Naukowej i Technicznej” t. 19 (2011).
  16. Tomaszczyk J., Zarządzanie informacją osobistą [w:] Zarządzanie informacją w nauce, Katowice 2008.
  17. Vitale F., Personal data curation in the cloud age : individual differences and design opportunities [w:] University of British Columbia 2020.
  18. Williams P., John J., Rowland I., The personal curation of digital objects: A lifecycle approach, „Aslib Proceedings” t. 61 (2009).
Poprzedni