MB blog

こちらは主に自分用のメモです。

SiteSucker で無料ブログ(FC2 Blog)から画像データを全て引っこ抜く


スポンサードリンク

とあるビジネスオーナーの方が10年以上マメに記されていた無料ブログ(エキサイトブログ)の全コンテンツを 、SEO 的な観点から Wordpress に移行する必要が出てきました。

全行程は別記事に記載しています。

lake-michigan.hatenablog.com

 

本記事では、 FC2 ブログ上の全画像をローカルに保存した方法を記録。FC2ブログ以外の無料ブログでも使えます!

 

利用ツール SiteSucker

https://ricks-apps.com/osx/sitesucker/

AppStore で買うと 4.99 ドルかかっちゃうので、Previous Version からダウンロードしました(ごめんなさい)。

Mac OS Mojave 10.14.14 でも SiteSucker 2.4.6 で問題なく動きました。

 

Web URL

起動時に出てくる Web URL 欄には、対象のブログURLを入れます。

FC2 ブログであれば、こんな感じ。

https://<FC2ブログユーザ名>.blog.fc2.com

 

Settings

Ignore Robot Exclusions にチェック

robots.txt検索エンジンにクロールさせないようにしている場合、SiteSucker は見に行けません。

ここにチェックを入れることで強制的にアクセス許可します。

今回は、別の無料ブログ(エキサイトブログ )からの移行手段として一時的に FC2 ブログに退避しているだけで、robots.txt は全て disallow にしているので、必須でした。

 

Path Constraint

Host に設定。当該ホスト配下の URL は全て見に行きます。

無料ブログの場合は、今思えば Subdomains にした方が捜査時間の節約になったかも?

でも最後にダウンロード対象のパス設定もするので、そんなに変わらないかもです。

 

Download Folder

デフォルトだと「ダウンロード」に落とされるけど、ダウンロードファイルが大量になる場合、あらかじめ任意のフォルダを作って指定しておいた方が良いですね。

 

File Types

Images にチェック。

Images にチェックしても、SiteSucker が画像データを集める都合上、HTML ファイルも一緒に落とされてきます。

Even though you may only want to download images, SiteSucker still needs to download HTML files since it needs the hypertext links in order to find all the images.

However, you can have SiteSucker delete HTML files after they are downloaded and analyzed by selecting the Delete After Analysis setting in the File Modification pop-up under the General settings.

https://ricks-apps.com/osx/sitesucker/archive/2.x/2.6.x/2.6/manuals/en/pgs/FAQ.html

後から削除する設定にもできるようです。

 

Paths > Paths to Include

ダウンロード対象の URL のパスを指定します。

あらかじめブログ画像を右クリックするなどして URL を調べておくと、ブログのサーバとは別のサーバに配置されていることがわかります。

https://blog-imgs-111-origin.fc2.com/a/u/t/<ユーザ名>

のような感じ。

URL をここに記載しておくと、このパスが含まれる画像のみ落としてきます。

 

上記の設定をして実行すると、指定したフォルダにガンガン画像が落ちてきます。わーい!