Project untuk melakukan Scrapping Sitemap dari url Menggunakan Node Js dan Menyimpannya Dalam Bentuk File
Bahan yang di perlukan.
pkg install node-js
pkg install npm
pkg install git
pkg install nano
npm install unirest
npm install random-useragent
git clone https://github.com/aceptriana/scrapping.git
cd scrapping
nano server.js
-
Silahkan ganti "Link_Sitemap" dengan dengan link url sitemap yang ingin kamu scrap isinya.
-
"Remove_Duplicate_Link" berfungsi untuk menghapus link yang sama. Maksudnya jika terdapat link duplicate di dalam file hasil scrapping, maka url duplicate tersebut akan dihapus dan menyisakan 1 link url asli. Jika kamu setting "no" maka link duplicate tidak akan dihapus. Jika kamu setting "yes" maka link duplicate akan di hapus.
ctrl x+y
node server.js
Silahkan buka folder OUTPUT
cd OUTPUT
mv hasil.txt /sdcard
buka hasilnya dengan Quick Edit
atau dengan mengunakan nano hasil.txt