動機

Webブラウザで資料検索やネット取引での領収書やチケットのPDFファイルをダウンロードすることが多いが、毎回保存先フォルダを選択して指定するほどマメではないので、ブラウザのデフォルトのダウンロードフォルダーにどんどん溜まっていく。よくあるのが、しばらく前にダウンロードとしたのと同じファイルをダウンロードしてしまい、無駄にどんどんディクスクペースを消費してしまうこと。定期的に重複しているファイルを消そうと思っても意外と手間のかかる作業なので、作業をスクリプト化した。

作業内容

このクリーンアップ作業を面倒くさく（＝ワンライナー化が困難に）させているのは下記の点である。

Webブラウザがダウンロードしたファイルを保存するときにすでに同じ名前のファイルが既存の場合、basename.extensionを、basename(1).extension,basename(2).extensionとか、basename-1.extension,basename-2.extensionといったように拡張子を除いた部分に数字を追記して保存する。このときFirefoxだと'(数字)'を追記する方式で、Safariだと'-数字'を追記する方式だったりして、ブラウザごとにネーミングルールの個性がある。
同じファイルを何回もダウンロードしてしまうことがあり、重複ファイルの個数がいくつもある場合がある。
ファイル名の拡張子認識の区切りが必ずしも最後の.とは限らない。たとえば、'foo.tar.gz'に対して’foo(1).tar.gz’という名前になったりするので、必ずしも1つの拡張子の分離(${filename##*.}(1).${filename%.*})ではあてはまらない場合がある。
ファイル名の書き換えルールに従っていても必ずしも内容が同じファイルとは限らない。たとえば、某航空会社のWebサイトから航空券(eチケット)のファイルを複数回ダウンロードすると'eTicket.pdf' ,'eTicket(1).pdf','eTicket(2).pdf',...というファイルがどんどんできていくが、重複ファイルのネーミングルールに従ってはいても、実際には別の予約便のチケットのファイルの可能性がある。

この辺をよろしくやってくれるようにスクリプト化する。ファイル名の処理に関してはsedのお世話になることにした。ファイルの同一性の確認はdiffにお願いする。ほかに、find,sortコマンドに依存している。想定しているネーミングルールは、'(数字)'追記タイプと'-数字'追記タイプの2通りを想定。

実装

MacOS上で動作確認してましたが、試す場合には必ず-nオプションをつけて大事なファイルを消そうとしていないか確認してほしい。（やっちゃっても無保証です。）

(ヘルプ表示)

%  ./cleanup_duplicated -h[Usage] % cleanup_duplicated [options]
[Options]
           -d path   : Set target directory
           -D depth  : Set search depth (defalut: 2)-i        : invoke rm with -i optiond
           -n        : "Dryrun"-mode-v        : Show verbose output
           -m num    : Set possible maximum index
           -h        : Show Help (this message)

-dオプションで指定しない場合には、${HOME}/Downloads以下をクリーンアップする。-mオプションを用意したのは、たまたまファイル名にfoo-YYYYmmddHHMMSS.tgzとか、foo(YYYYmmddHHMMSS).tgzといった、年号日付をつけたファイルがあった場合に膨大な数の重複ファイル候補を探しにいってしまってほぼ無限ループに陥ってしまうのを回避するため。

Webブラウザのダウンロードフォルダを整理するスクリプト

動機

作業内容

実装

Trending Articles

和歌山市でマンションの部屋全焼

更新プログラムがインストールされません

井上貴博アナウンサー彼女や結婚の噂は？実家や親が話題？人気は？

宇宙運命数「８」　はくちょう座

カラオケ鉄板ネタになるの間違いなし「大塚愛から福原愛」って何！？

2016年1月22日号　山口銀行（1月4日付）

人気占い師・Sakkoが占う！今日のアナタの運勢と、ラッキーカラーは・・・

サキュバス戦記　攻略

この記事は表示できません

【ネタバレ感想】「7人目のスタンド使い」その18

上海問屋、7色に切り替えられるアイソレーションキーボード

【変更対戦カードのお知らせ】7.23『アマチュア全日本選手権大会』

Microsoft、最も議論を呼んだWindows 11のタスクバーの問題を修正中

野口興業（弘道会/山口組）

エンタープライズモードの設定方法について

【ディズニーランドパリ】日本にないオススメアトラクション13選【ウォルトディズニースタジオ】

サマータイムレンダ01

Article 2

【世界大学ランキング】第１位にジュリアード音楽院とウィーン国立音大、日本勢は？

株式会社アルテカ　代表　野村紘一