Senin, 22 Agustus 2016

Filter File Office Hasil Recovery Dengan Script Python2

Tau kan proses data recovery itu seperti apa? Beberapa file mungkin masih dikenali dengan baik, lengkap beserta nama file tersebut menggunakan metode rekonstruksi partisi. Namun lebih banyak lagi kasus yang mengalami kerusakan parah dan harus menggunakan metode raw file system scan. Nah, pada metode kedua inilah script python2 berikut saya gunakan untuk memfilter jenis dokumen berdasarkan informasi dari header file yang bersangkutan.




Jadi kasusnya begini, hasil recovery yang menggunakan metode raw akan menghasilkan file-file dengan nama acak. Terutama dokumen-dokumen office, akan banyak kesalahan dalam pengenalanya (pemberian ekstensi pada dokumen) karena dokumen excel, power point dan word, 80% memiliki ekstensi yang sama. Yaitu *.doc.

Pada Linux, hal tersebut tidak menjadi masalah karena Linux membuka berkas berdasarkan tipe mime dokumen (Linux membaca header dokumen saat mengaksesnya). Namun akan menjadi masalah besar saat dibuka di MS. Windows karena MS. Windows meng-handle dokumen berdasarkan ekstensinya.

Lalu saya menulis script pendek berikut (yang tentu saja hasil saya menyontek dari beberapa situs :P) untuk memisahkan tiap dokumen.


Kira-kira, script yang saya tulis bekerja seperti berikut:



Untuk penggunaanya seperti berikut:

  • Periksa manual jenis file yang dimaksud dengan perintah: file <nama file>.
  • Temukan atau tentukan keyword unik yang kira-kira tidak ada pada dokumen lain (Misal: Word, PowerPoint, Excel).
  • Lalu jalankan script seperti berikut: $ python2 sigf <string/ keyword>

Itu saja. Semoga bermanfaat.

NB: Script hanya berjalan pada Linux!
Download script di dwl.dhobbie.net