シェルスクリプトでファイルを一行ずつreadする処理を高速化するテクニック

期待してる人ががっかりしないように、最初に結論を書いておくと dash、busybox (ash)、mksh、yash、zshにおいて読み込み速度は大幅に速くなりますが bash においては変わりません。ただしは使用メモリが減ります。kshは少し速くなりますが逆に使用メモリは大幅に増えます。シェルスクリプトでの読み込み速度を上げるもので、他の言語を使ったりコマンドを呼び出すよりも速くなるわけではありません。

シェルスクリプトでファイルを一行ごとに読み込む時、一般に使われているのは read関数です。ですが、この read関数、遅いというわさを聞きました。たしかに一行毎ずつ読み込むのですから catを使ってファイル全体を読み込むのに比べれば遅いでしょうが、そのままでは一行ずつ処理をすることは出来ません。

さて一行ずつ処理したい場合に使えるのは read以外どのような方法があるでしょうか？一つは、forを使います。catでファイル全体を読み取った後、IFSを使って改行区切りで位置パラメータ $@に setします。ただしこの方法は改行が複数連続する場合は一つとみなされるので厳密には異なります。ですが改行のみの行は無視したいという要件は比較的あると思うので使えないということにはならないでしょう。

もう一つは、bash 専用の readarrayとzsh専用の mapfileを使います。readarrayは mapfileという別名でも使えるのですが、ややこしいのでこの記事では bash 用を readarray、zsh 用を mapfileと呼びます。

さて、まずは計測です。一行100文字×10万行（およそ10MB）のファイルを処理します。メモリ使用量はスクリプトの最後で ps axuして RSS の値を書いているだけです。計測対象のシェルは面倒なので dash, bash, ksh, zsh の4つに絞ります。

use_cat(){# 参考data=$(cat ./data.txt)}

use_read(){while IFS=read-r line;do i=$((i+1));done<./data.txt
}

use_for(){["$ZSH_VERSION"]&& setopt shwordsplit
  data=$(cat ./data.txt)IFS=$(printf'\n_')&&IFS=${IFS%_}for line in$data;do i=$((i+1));done}

for_loop(){for line in$data;do i=$((i+1));done;}
use_for_loop(){["$ZSH_VERSION"]&& setopt shwordsplit
  data=$(cat ./data.txt)IFS=$(printf'\n_')&&IFS=${IFS%_}set--$data
  for_loop "$@"}

use_readarray(){
  readarray -t lines < ./data.txt
  for line in"${lines[@]}";do i=$((i+1));done}

use_mapfile(){
  zmodload zsh/mapfile
  lines=("${(f)mapfile[./data.txt]}")for line in"${lines[@]}";do i=$((i+1));done}

mapfile_loop(){for line in"${lines[@]}";do i=$((i+1));done;}
use_mapfile(){
  zmodload zsh/mapfile
  lines=("${(f)mapfile[./data.txt]}")
  mapfile_loop
}

	dash	bash	ksh	zsh
cat (参考)	0.083s : 11,656 KB	0.127s : 22,796 KB	0.046s : 23,492 KB	0.103s : 13,676 KB
read	5.173s : 800 KB	0.979s : 3,344 KB	0.488s : 3,876 KB	5.853s : 4,088 KB
for	0.198s : 11,600 KB	0.552s : 40,072 KB	0.314s : 27,908 KB	0.903s : 14,204 KB
for + loop	0.359s : 46,844 KB	1.065s : 155,688 KB	0.640s : 66,980 KB	1.104s : 35,756 KB
readarray	-	0.812s : 72,068 KB	-	-
mapfile	-	-	-	0.425s : 15,836 KB
mapfile + loop	-	-	-	0.431s : 15,708 KB

やはり readは遅いですね・・・と思いましたが bash、kshは結構善戦しているようです。（※ bash 2.03 では8秒ぐらいかかりましたが 2.05a 以降は大差ありません）readarray、mapfileは特定のシェルに専用の機能であるいう点が問題なければ速いです。

メモリ使用量に関しては当然といえば当然ですが、一行のみ読み込む readが圧倒的に少なく、その他はファイルすべてを読み込んでいるためメモリ使用量は多くなります。

for + loop, mapfile + loopに関しては次の項目で説明します。今はそういう書き方をしてもさほど変わらないと思っていて下さい。

参考ですが、他のコマンドを使用した場合はこのとおりです。

	time
`wc -l`	0.006s
`awk 'BEGIN{i=0}{i++} END{print i}' ./data.txt`	0.014s
`sed -n '' ./data.txt`	0.015s
`sed -n 's/^/_/g' ./data.txt`	0.021s

圧倒的ですね。他のコマンドで処理が完結できる場合はその方がいいでしょう。

ループの中の処理を関数化する

さて、この処理を改善する方法はないでしょうか？・・・の前に、先程のコードはループの中で直接カウントをしていました。コードの可読性、テスト容易性を上げるために、一行を処理する関数にしたいというのはよくある話だと思います。ということで先程のコードを次のようにカウントする関数を呼び出すように変更してみます。

count(){i=$((i+1));}

use_read(){while IFS=read-r line;do count "$line";done<./data.txt
}

use_for(){["$ZSH_VERSION"]&& setopt shwordsplit
  data=$(cat ./data.txt)IFS=$(printf'\n_')&&IFS=${IFS%_}for line in$data;do count "$line";done}

for_loop(){for line in"$@";do count "$line";done;}
use_for_loop(){["$ZSH_VERSION"]&& setopt shwordsplit
  data=$(cat ./data.txt)IFS=$(printf'\n_')&&IFS=${IFS%_}set--$data
  for_loop "$@"}

use_readarray(){
  readarray -t lines < ./data.txt
  for line in"${lines[@]}";do count "$line";done}

use_mapfile(){
  zmodload zsh/mapfile
  lines=("${(f)mapfile[./data.txt]}")for line in"${lines[@]}";do count "$line";done}

mapfile_loop(){for line in"${lines[@]}";do count "$line";done;}
use_mapfile(){
  zmodload zsh/mapfile
  lines=("${(f)mapfile[./data.txt]}")
  mapfile_loop
}

	dash	bash	ksh	zsh
read	5.173s : 800 KB	0.979s : 3,344 KB	0.488s : 3,876 KB	5.853s : 4,088 KB
read + count	5.211s : 2,600 KB	1.580s : 10,500 KB	0.909s : 3,996 KB	7.246s : 3,980 KB
for	0.198s : 11,600 KB	0.552s : 40,072 KB	0.314s : 27,908 KB	0.903s : 14,204 KB
for + loop	0.359s : 46,844 KB	1.065s : 155,688 KB	0.640s : 66,980 KB	1.104s : 35,756 KB
for + count	0.261s : 11,668 KB	1.140s : 39,948 KB	0.709s : 28,308 KB	87.674s : 22,100 KB
for + loop + count	0.425s : 46,868 KB	1.627s : 155,760 KB	1.013s : 75,276 KB	5.585s : 35,704 KB
readarray	-	0.812s : 72,068 KB	-	-
readarray + count	-	1.381s : 79,316 KB	-	-
mapfile	-	-	-	0.425s : 15,836 KB
mapfile + loop	-	-	-	0.431s : 15,708 KB
mapfile + count	-	-	-	9.003s : 15,704 KB
mapfile + loop + count	-	-	-	2.913s : 23,696 KB

関数呼び出しのオーバーヘッドがあるため、どれもわずかに処理時間が伸びてますね。・・・わずか？はい、おかしいところが二箇所あります。それは zsh の forと mapfileです。関数呼び出しのオーバーヘッドとは思えないほど時間が伸びています。しかし、for + loop, mapfile + loopのように関数を一つ間に入れるだけでその処理時間は大きく下がります。理由はかなり推測ですが、別記事にまとめました。

改善方法

さてこれを改善する方法はないでしょうか？実行速度もですがメモリ使用量も改善したいところです。ここでよくシェルスクリプトに awk のコードを埋め込んで awk で処理を実装するテクニックが紹介されるのですが、そうすると二つの言語を使うことになります。また別のプロセスですから、awk とシェルスクリプトの関数や変数は相互にアクセスすることが出来ません。処理速度だけを見ると awk が良いとは思いますが開発が面倒になります。

速度も速くメモリも使用せず、シェルスクリプトで処理を行う方法。実はあります。

count(){i=$((i+1));}

use_callback1(){eval"$(sed"s/'/'\"'\"'/g; s/^/count '/; s/$/'/" ./data.txt)"}

use_callback2(){sed"s/'/'\"'\"'/g; s/^/count '/; s/$/'/" ./data.txt > ./data.sh
  . ./data.sh
  rm ./data.sh
}

	dash	bash	ksh	zsh
callback1 + count	0.266s : 2,600 KB	1.685s : 46,588 KB	0.829s : 71,456 KB	63.002s : 4,016 KB
callback2 + count	0.243s : 724 KB	1.526s : 3,572 KB	0.685s : 52,460 KB	1.692s : 3,900 KB
read	5.173s : 800 KB	0.979s : 3,344 KB	0.488s : 3,876 KB	5.853s : 4,088 KB
read + count	5.211s : 2,600 KB	1.580s : 10,500 KB	0.909s : 3,996 KB	7.246s : 3,980 KB
for	0.198s : 11,600 KB	0.552s : 40,072 KB	0.314s : 27,908 KB	0.903s : 14,204 KB
for + count	0.261s : 11,668 KB	1.140s : 39,948 KB	0.709s : 28,308 KB	87.674s : 22,100 KB
for + loop + count	0.425s : 46,868 KB	1.627s : 155,760 KB	1.013s : 75,276 KB	5.585s : 35,704 KB
readarray	-	0.812s : 72,068 KB	-	-
readarray + count	-	1.381s : 79,316 KB	-	-
mapfile	-	-	-	0.425s : 15,836 KB
mapfile+loop + count	-	-	-	2.913s : 23,696 KB

仕組みとしては、データを sedを使用して、一行を引数として count関数を呼び出すシェルスクリプト（count '一行のデータ'）に変換します。（シングルクォートはエスケープしています。）この変換にかかる時間は、0.05s ほどなので無視できるレベルです。そして変換されたシェルスクリプトを実行します。知っている人なら JSONP と似たような仕組みといえば理解しやすいと思います。read関数の読み込みの遅さをシェルのソースコード読み込み速度に置き換えているわけです。sedを使用してはいますが、メインの処理を sedでやるわけではなく単に関数呼び出しのシェルスクリプトに変換してるだけで汎用的に使えます。

改善されている項目について見ていきます。まず dash と zsh において大きく速度が改善されています。zsh は巨大な文字列の evalが苦手のようで一旦別のファイルに出力してから .コマンドで読み取ったほうが速い（callback1より callback2の方が速い）です。ksh はメモリ使用量が多いので少し残念ですね。コードがそのままメモリに残っているように思えます。

全てにおいて最速という訳ではありませんがバランスに優れています。また忘れてはいけないもう一つのメリットは、この方法は readと同じようにデータを一行処理できるところです。データが全て揃うまで待つ必要はなく非同期で動作させることが出来ます。

callback1は evalを使用するため、全てをメモリに読み込みますが、以下のように FIFO ファイルを使うことで、データ生成 (+ sed) と .によるデータ読み込みを並列化することができます。また、シェルは echo 'echo test' | shのように標準入力からソースコードを入力することができるので、データを生成するプロセスとデータを処理するプロセスを分けることができるなら、この方法でも同じように並列化が可能です。

FIFO を使用した並列化

use_callback3(){mkfifo ./fifo
  sed"s/'/'\"'\"'/g; s/^/count '/; s/$/'/" ./data.txt > ./fifo &
  . ./fifo
  rm ./fifo
  wait$!}

また、ついでに evalによるパフォーマンス低下がどれくらいかも計測してみます。

use_callback4(){mkfifo ./fifo
  sed"s/'/'\"'\"'/g; s/^/eval count '/; s/$/'/" ./data.txt > ./fifo &
  . ./fifo
  rm ./fifo
  wait$!}

最後なので他のシェルの計測結果も加えます。

	dash	bash	busybox ash	ksh	mksh	yash	zsh
read + count	5.211s : 2,600 KB	1.580s : 10,500 KB	9.151s : 4 KB	0.909s : 3,996 KB	5.467s : 932 KB	12.129s : 1,248 KB	7.246s : 3,980 KB
callback1 + count	0.266s : 2,600 KB	1.685s : 46,588 KB	0.936s : 1,660 KB	0.829s : 71,456 KB	0.599s : 1,812 KB	1.371s : 28,188 KB	63.002s : 4,016 KB
callback2 + count	0.243s : 724 KB	1.526s : 3,572 KB	0.929s : 1,572 KB	0.685s : 52,460 KB	0.636s : 1,944 KB	1.138s : 2,900 KB	1.692s : 3,900 KB
callback3 + count	0.195s : 736 KB	1.562s : 3,332 KB	0.484s : 1,636 KB	0.646s : 52,360 KB	0.552s : 2,756 KB	1.106s : 2,828 KB	1.777s : 4,120 KB
callback4 + count	0.464s : 2,600 KB	3.345s : 3,512 KB	0.896s : 1,640 KB	1.376s : 56,624 KB	1.309s : 1,840 KB	2.464s : 2,948 KB	2.383s : 4,104 KB

busybox の結果が特徴的ですね。少メモリの組み込みデバイスに特化していると思われます。callback3と callback4の差から evalによって倍ぐらい時間がかかるようですが、10万回でこの程度なので私はあまり気にせず使っています。

さいごに

ということで read処理を高速化するテクニックでした。まあそもそもシェルスクリプトでこんな大量のデータを扱う人もいないとは思いますが。実装は簡単なので気が向いたらライブラリ化するかもしれません。

シェルスクリプトでファイルを一行ずつreadする処理を高速化するテクニック

ループの中の処理を関数化する

改善方法

さいごに

Trending Articles

和歌山市でマンションの部屋全焼

更新プログラムがインストールされません

井上貴博アナウンサー彼女や結婚の噂は？実家や親が話題？人気は？

宇宙運命数「８」　はくちょう座

カラオケ鉄板ネタになるの間違いなし「大塚愛から福原愛」って何！？

2016年1月22日号　山口銀行（1月4日付）

人気占い師・Sakkoが占う！今日のアナタの運勢と、ラッキーカラーは・・・

サキュバス戦記　攻略

この記事は表示できません

【ネタバレ感想】「7人目のスタンド使い」その18

上海問屋、7色に切り替えられるアイソレーションキーボード

【変更対戦カードのお知らせ】7.23『アマチュア全日本選手権大会』

Microsoft、最も議論を呼んだWindows 11のタスクバーの問題を修正中

野口興業（弘道会/山口組）

エンタープライズモードの設定方法について

【ディズニーランドパリ】日本にないオススメアトラクション13選【ウォルトディズニースタジオ】

サマータイムレンダ01

Article 2

【世界大学ランキング】第１位にジュリアード音楽院とウィーン国立音大、日本勢は？

株式会社アルテカ　代表　野村紘一