Pipes dan Filters
Overview
Teaching: 30 min
Exercises: 20 minQuestions
Bagaimana mengkombinasikan perintah-perintah yang ada untuk menghasilkan output baru yang diinginkan?
Objectives
Me-redirect output dari sebuah perintah ke dalam file.
Memproses file menggunakan redirection.
Membangun pipelines perintah dengan dua tingkat atau lebih.
Menjelaskan apa yang erjadi jika sebuah program atau pipeline tidak memberikan input ke proses.
Menjelaskan potongan kecil Unix yang membentuk filosofi besar.
Sekarang kita mengetahui beberapa perintah dasar dari shell. Kemampuan shell akan maksimal jika kita mampu mengkombinasikan beberapa perintah untuk mendapatkan ouput yang kita inginkan.
Kita akan memulai dengan sebuah directory yang disebut molecules
.
Di dalamnya, terdapat enam file yang menggambarkan beberapa molekul organik sederhana.
Ekstensi .pdb
mengindikasikan bahwa file disimpan dalam format Protein Data Bank,
sebuah format teks sederhana yang menyatakan tipe dan posisi tiap atom pada molekul.
$ ls molecules
cubane.pdb ethane.pdb methane.pdb
octane.pdb pentane.pdb propane.pdb
Kemudian masuklah pada direktori molecules
tersebut dengan perintah cd
dan jalankan perintah wc *.pdb
.
wc
merupakan kepanjangan dari “word count”:
perintah tersebut akan menghitung jumlah baris, kata dan karakter pada sebuah file.
Tanda bintang, *
pada *.pdb
mencocokkan nol atau lebih karakter,
jadi shell akan menghasilkan output dari *.pdb
sebuah lish dari semua file .pdb
dalam direktori ini.
$ cd molecules
$ wc *.pdb
20 156 1158 cubane.pdb
12 84 622 ethane.pdb
9 57 422 methane.pdb
30 246 1828 octane.pdb
21 165 1226 pentane.pdb
15 111 825 propane.pdb
107 819 6081 total
Wildcards
Tanda
*
adalah wildcard. Dengan menggunakan tanda ini shell akan mencocokkan karakter-karakter dalam tanda tersebut dengan yang dicari. Misalnyaethane.pdb
,propane.pdb
dan file lainnya yang berakhiran dengan ekstensi.pdb
. Jika kita gunakanp*.pdb
maka shell akan menghasilkanpropane.pdb
danpentane.pdb
karena kedua file tersebut diawali oleh huruf p.Tanda
?
juga merupakan wildcard, bedanya tanda tanya tersebut hanya mencocokkan satu karakter saja. Misal contoh terakhir diatas jika kita ganti menjadip?.pdb
maka akan mencocokkan nama file yang berawalan huruf p dan satu karakter lagi setelahnya, misalp1.pdb
,pi.pdb
dan sejenisnya. Kedua wildcara tersebut (tanda asterisk dan tanda tanya bisa kita gabungkan untuk mencari file.Ketika shell menemukan wildcard dalam pola pencarian, maka shell akan membuat list yang sesuai sebelum menampilkan output dari perintah yang dijalankan. Contohnya perintah
ls *.pdb
, maka shell akan melist semua file yang berkekstensi .pdb (jika ada) dan menampilkannya sebagai output perintahls
. Sebaliknya jika tidak ada file yang sesuai dengan pola wildcard, maka shell akan menampilkan pesan kesalahan. Misal kita jalankan perintahls *.pdf
dalam direktorymolecules
, maka akan muncul pesanls: cannot access '*.pdf': No such file or directory
. Perintah-perintah sepertiwc
danls
akan melihat list yang cocok dengan pola pencarian, namun tidak wildcard itu sendiri. Shell, tidak seperti program lainnya, mengikutsertakan wildcard dalam pencarian (bukan mencari tanda bintang atau tanda tanya), ini merupakan contoh dari desain orthogonal.
Menggunakan Wildcards
When run in the
molecules
directory, whichls
command(s) will produce this output?
ethane.pdb methane.pdb
ls *t*ane.pdb
ls *t?ne.*
ls *t??ne.pdb
ls ethane.*
Solution
The solution is
3.
1.
shows all files whose names contain zero or more characters (*
) followed by the lettert
, then zero or more characters (*
) followed byane.pdb
. This givesethane.pdb methane.pdb octane.pdb pentane.pdb
.
2.
shows all files whose names start with zero or more characters (*
) followed by the lettert
, then a single character (?
), thenne.
followed by zero or more characters (*
). This will give usoctane.pdb
andpentane.pdb
but doesn’t match anything which ends inthane.pdb
.
3.
fixes the problems of option 2 by matching two characters (??
) betweent
andne
. This is the solution.
4.
only shows files starting withethane.
.
Jika kita menjalankan perintah wc -l
daripada wc
,
maka outputnya akan menampilkan jumlah baris saja:
$ wc -l *.pdb
20 cubane.pdb
12 ethane.pdb
9 methane.pdb
30 octane.pdb
21 pentane.pdb
15 propane.pdb
107 total
Kita juga bisa menggunakan argumen -w
untuk menampilkan jumlah kata
dan argumen -c
untuk menampilkan jumlah karakter.
Mana dari file-file tersebut yang paling sedikit jumlah barisnya?
Jika hanya 6 file pada contoh diatas, kita dapat dengan mudah menemukan file dengan jumlah baris paling sedikit. Bagaimana jika jumlah filenya 1000 atau 10000? Akan sulit dicari mana file paling pendek dengan cara manual seperti di atas. Cobalah perintah berikut:
$ wc -l *.pdb > lengths.txt
Jadi, output dari wc
akan kita simpan dalam file bernama length.txt.
Perhatikan tanda redirect, yakni >. Jika file telah ada maka akan di-overwrite.
File length ini kemudian akan kita sort.
Argumen yang kita gunakan adalah -n
yang akan mengurutkan berdasarkan angkanya (numeric).
Dengan demikian kita mengdapatkan hasil sortir file *.pdb
yang urut dari kecil ke besar.
ls lengths.txt
mengkonfirmasi adanya file:
$ ls lengths.txt
lengths.txt
Gunakan perintah cat
untuk melihat isi file lengths.txt
.
$ cat lengths.txt
20 cubane.pdb
12 ethane.pdb
9 methane.pdb
30 octane.pdb
21 pentane.pdb
15 propane.pdb
107 total
Output halaman demi halaman
We’ll continue to use
cat
in this lesson, for convenience and consistency, but it has the disadvantage that it always dumps the whole file onto your screen. More useful in practice is the commandless
, which you use with$ less lengths.txt
. This displays a screenful of the file, and then stops. You can go forward one screenful by pressing the spacebar, or back one by pressingb
. Pressq
to quit.
$ sort -n lengths.txt
9 methane.pdb
12 ethane.pdb
15 propane.pdb
20 cubane.pdb
21 pentane.pdb
30 octane.pdb
107 total
Kita bisa menyimpan hasil sortir diatas, misal dengan nama file sorted-lengths.txt
dengan menggunakan > sorted-lengths.txt
setelah perintah sebelumya, > lengths.txt
yang menyimpan output dari wc
pada file lengths.txt
.
Terakhir kita bisa menggunakan perintah head
untuk melihat isi sorted-lengths.txt
:
$ sort -n lengths.txt > sorted-lengths.txt
$ head -n 1 sorted-lengths.txt
9 methane.pdb
Menggunakan parameter -n 1
pada perintah head
berarti kita
menyuruh head
menampikan hanyaa 1 baris saja, ganti dengan -n 5
untuk
menampilkan lima baris peratama.
Beberapa perintah diatas dapat digabung sebagai berikut:
$ wc -l *.pdb > length.txt | sort -n
Redirecting ke file yang sama
Adalah ide yang buruk untuk me-redirect output dari perintah yang bekerja pada file yang sama. Sebagai contoh:
$ sort -n lengths.txt > lengths.txt
Melakukan operasi seperti itu akan berbahaya untuk file-file penting karena akan menghapus isi dari file
lengths.txt
.
Jika anda mulai bingung dengan perintah-perintah ini,
ini artinya kabar baik. Cobalah beberapa kali perintah wc
, sort
, dan head
Coba gabungkan beberapa perintah sekaligus untuk melihat outputnya.
$ sort -n lengths.txt | head -n 1
9 methane.pdb
Batang vertikal, |
diantara dua perinah disebut pipe.
Jadi artinya ouput perintah di sebelah kiri pipe menjadi
input perintah di sebelah kanan pipe.
Komputer akan membuat file temporary file jika dibutuhkan, atau meng-copy
dari program satu ke yang lainnya dalam memory;
kita tidak perlu mengetahui detail prosesnya.
Dengan pipe, kita menyalurkan ouput perintah wc
pada perintah sort
,
kemudian hasilnya kita redirect dan kita tulis dalam file baru,
atau output sort
kita inputkan ke head
seperti berikut ini.
$ wc -l *.pdb | sort -n
9 methane.pdb
12 ethane.pdb
15 propane.pdb
20 cubane.pdb
21 pentane.pdb
30 octane.pdb
107 total
Dan kemudian output dari sort kita kirim sebagai input dari head
sehingga pipeline fullnya menjadi sebagai berikut:
$ wc -l *.pdb | sort -n | head -n 1
9 methane.pdb
Ini adalah cara yang sama dengan yang dilakukan matematikawan ketika menghitung log(3x),
yakni tiga kali x, dan hasilnya di-log-kan.
Pada kasus kita di atas, “head dari sort dari line count dari file*.pdb
”.
stdin dan stdout
Beginilah sebenarnya yang terjadi ketika kita membuat pipe. Ketika shell menjalan perintah — perintah apapun —, akan membuat suatu process dalam memory untuk menahan perangkat lunak program tersebut dan keadaan saat itu. Setiap proses memiliki kanal input yang disebut standard input (stdin). Setiap proses juga memiliki ouput yang disebut standard output. (stdout Kanal output lainnya adalah standard error (stderr).
Kanal error ini biasanya digunakan untuk untuk mendiagnosa program, selain tetap also mengirimkan outout dari perintah di sebelah kiri pipe ke perintah di sebelah kanan pipe.
Unix philosophy: Do one thing and do it well.
Shell sebenarnya adalah sebuah program, dalam keadaan normal, apapun yang kita tik di shell sesuai standar input akan menampilkan apapun outputnya pada layar terminal. Ketika kita menjalankan sebuah prorgram pada shell, shel akan menjalankan sebuah proses dan mengirimnya sementara apapun yang kita tik pada keyboard ke input standar proses, dan apapun proses yang terkirim akan dikiriom ke standar output ke standar output.
Apa yang terjadi ketika kita menjalankan wc -l *.pdb > lengths.txt
.
Shell mulai meminta komputer untuk membuat proses baru menjalankan
program wc
. Karena kita memberikan input nama file sebagai parameter,
wc
akan membacanya sebagai input, dan kita menambahkan >
untuk
me-redirect output dari proses ke sebuah file. Shell
menghubungkan output dari proses standar ke file tersebut.
Jika kita menjalankan wc -l *.pdb | sort -n
,
shell akan membuat dua proses (satu untuk tiap sisi pipe)
sehingga wc
dan sort
berjalan secara simultan.
Luaran standar dari wc
diteruskan ke input standar dari sort
;
karena tidak ada redirection >
, output dari sort
akan langsung
menuju layar. Jika kita jalankan wc -l *.pdb | sort -n | head -n 1
,
kita akan mendapatkan tiga proses dengan aliran data dari satu ke yang lain,
dari wc
ke sort
, dari sort
ke head
kemudian ke layar.
Ide sederhana dari Unix ini membuat Unix (dan Linux) sangat sukses.
Apa ide sederhananya..? Tak lain adalah membatasi tiap satu perintah
melakukan satu pekerjaan – do one job well, dan tiap perintah
tersebut bekerja dengan baik satu sama lain.
Model pemrograman dengan mengkombinasikan beberapa perintah ini
disebut “pipes dan filters”. Kita telah menggunakan “pipes”, kemudian
bagaimana dengan filter…?
Sebuah filter adalah program seperti wc
dan sort
yang
mentransformasikan stream input ke stream output.
Hampir semua perangkat standar Unix dapat bekerja sepert ini, kecuali
diperintahkan untuk bekerja sebaliknya. Unix shell membaca input standar,
mengerjakan apa yang diperintahkan, dan menuliskan hasilnya ke output standar.
Intinya, setiap program yang dapat membaca input dari tiap baris file, dan menuliskan output tiap barisnya pada standar output dapat dikombinasikan dengan program yang lain yang juga bekerja demikian. Anda juga bisa, dan seharusnya, membuat program dengan cara ini sehingga orang lain yang menggunakan program anda dapat meletakkan program anda tersebut dalam pipes agar lebih powerful.
Redirecting Input
Seperti halnya menggunakan
>
untuk me-redirect output dari sebuah program kita juga bisa menggunakan<
untuk me-redirect input dari sebuah program misalnya untuk membaca file, bukan standar inputnya. Jadi daripada menuliswc ammonia.pdb
, kita bisa menuliswc < ammonia.pdb
. Pada kasus pertamawc
menerima paramater command line untuk membuka file tersebut. Pada perintah kedua,wc
tidak menerima parameter command line, sehingga akan membaca dari input standar, namun kita telah menyuruh shell untuk mengirim isi dariammonia.pdb
ke standar input dariwc
. standard input.
Nelle’s Pipeline: Checking Files
Nelle telah menjalankan sampelnya pada komputer uji
da menghasilkan 1520 files pada direcktori north-pacific-gyre/2012-07-03
yang
telah dijelaskan sebelumnya.
Untuk mengeceknya secara cepat, dari directory home
, Nelle mengetikkan:
$ cd north-pacific-gyre/2012-07-03
$ wc -l *.txt
Outputnya adalah 1520 baris seperti ini:
300 NENE01729A.txt
300 NENE01729B.txt
300 NENE01736A.txt
300 NENE01751A.txt
300 NENE01751B.txt
300 NENE01812A.txt
... ...
Sekarang dia mengetikkan:
$ wc -l *.txt | sort -n | head -n 5
240 NENE02018B.txt
300 NENE01729A.txt
300 NENE01729B.txt
300 NENE01736A.txt
300 NENE01751A.txt
Whoops: salah satu file lebih pendek 60 baris dari yang lainnya. Ketika dia kembali dan mengeceknya, dia melihat bahwa dia melakukan ujicoba pada jam 8 pagi Senin pagi — seseorang mungkin telah lupa untuk meresetnya.
Sebelum menjalankan ulang sampel tersebut, dia mengecek apakah file-file tersebut memiliki banyak data:
$ wc -l *.txt | sort -n | tail -n 5
300 NENE02040B.txt
300 NENE02040Z.txt
300 NENE02043A.txt
300 NENE02043B.txt
5040 total
Hasilnya terlihat baik — namun apa maksud kode Z
pada baris kedua?
Semua sampel seharusnya memiliki kode akhir A
atau B
.
Dengan konvensi, lab-nya menggunakan tanda Z
untuk mengindasikan sampel
yang kurang informasinya.
Untuk mengetahui sampel lain yang demikian (kurang informasi) dia mengetikkan perintah berikut:
$ ls *Z.txt
NENE01971Z.txt NENE02040Z.txt
Cukup yakin, ketia dia mengecek data log pada laptopnya, tidak ada
keterangan untuk mendapatkan informasi tambahan pada data yang kurang informasinya.
Jadi, dia harus membuang data-data yang kurang informasinya tersebut.
Dia bisa menghapusnya dengan perintah rm
.
Namun, dia bisa melalukan analisis untuk sampel-sampel yang kurang tersebut.
Jadi dia lebih baik menggunakan ekspresi wilcard *[AB].txt
saja.
Seperti sebelumnya dijelaskan, tanda bintang *
akan mengeksekusi file dengan
nama berisi karakter apapun; [AB]
artinya hanya file yang berakhiran A atau B saja
yang dieksekusi.
LATIHAN
Apa makna perintah
sort -n
?Jika kita menjalankan perintah
sort
pada file tersebut:10 2 19 22 6
outputnya adalah:
10 19 2 22 6
Jika menjalankan
sort -n
pada input yang sama, maka kita mendapatkan:2 6 10 19 22
Jelakan efek opsi
-n
pada kasus di atas.Solution
The
-n
flag specifies a numeric sort, rather than alphabetical.
Apa makna tanda
<
?Berpindahlah pada direktori
data-shell
.Apa perbedaan antara:
$ wc -l notes.txt
dengan:
$ wc -l < notes.txt
Solution
<
is used to redirect input to a command.In both examples, the shell returns the number of lines from the input to the
wc
command. In the first example, the input is the filenotes.txt
and the file name is given in the output from thewc
command. In the second example, the contents of the filenotes.txt
are redirected to standard input. It is as if we have entered the contents of the file by typing at the prompt. Hence the file name is not given in the output - just the number of lines. Try this for yourself:$ wc -l this is a test Ctrl-D # This lets the shell know you have finished typing the input
3
Apa makna
>>
?Apa perbedaan antara:
$ echo hello > testfile01.txt
dengan:
$ echo hello >> testfile02.txt
Hint: Try executing each command twice in a row and then examining the output files.
More on Wildcards
Sam has a directory containing calibration data, datasets, and descriptions of the datasets:
2015-10-23-calibration.txt 2015-10-23-dataset1.txt 2015-10-23-dataset2.txt 2015-10-23-dataset_overview.txt 2015-10-26-calibration.txt 2015-10-26-dataset1.txt 2015-10-26-dataset2.txt 2015-10-26-dataset_overview.txt 2015-11-23-calibration.txt 2015-11-23-dataset1.txt 2015-11-23-dataset2.txt 2015-11-23-dataset_overview.txt
Before heading off to another field trip, she wants to back up her data and send some datasets to her colleague Bob. Sam uses the following commands to get the job done:
$ cp *dataset* /backup/datasets $ cp ____calibration____ /backup/calibration $ cp 2015-____-____ ~/send_to_bob/all_november_files/ $ cp ____ ~/send_to_bob/all_datasets_created_on_a_23rd/
Help Sam by filling in the blanks.
Solution
$ cp *calibration.txt /backup/calibration $ cp 2015-11-* ~/send_to_bob/all_november_files/ $ cp *-23-dataset?.txt ~send_to_bob/all_datasets_created_on_a_23rd/
Piping Commands Together
In our current directory, we want to find the 3 files which have the least number of lines. Which command listed below would work?
wc -l * > sort -n > head -n 3
wc -l * | sort -n | head -n 1-3
wc -l * | head -n 3 | sort -n
wc -l *.* | sort -n | head -n 3
Solution
Option 4 is the solution. The pipe character
|
is used to feed the standard output from one process to the standard input of another.>
is used to redirect standard output to a file. Try it in thedata-shell/molecules
directory!
Why Does
uniq
Only Remove Adjacent Duplicates?The command
uniq
removes adjacent duplicated lines from its input. For example, the filedata-shell/data/salmon.txt
contains:coho coho steelhead coho steelhead steelhead
Running the command
uniq salmon.txt
from thedata-shell/data
directory produces:coho steelhead coho steelhead
Why do you think
uniq
only removes adjacent duplicated lines? (Hint: think about very large data sets.) What other command could you combine with it in a pipe to remove all duplicated lines?Solution
$ sort salmon.txt | uniq
Pipe Reading Comprehension
A file called
animals.txt
(in thedata-shell/data
folder) contains the following data:2012-11-05,deer 2012-11-05,rabbit 2012-11-05,raccoon 2012-11-06,rabbit 2012-11-06,deer 2012-11-06,fox 2012-11-07,rabbit 2012-11-07,bear
What text passes through each of the pipes and the final redirect in the pipeline below?
$ cat animals.txt | head -n 5 | tail -n 3 | sort -r > final.txt
Hint: build the pipeline up one command at a time to test your understanding
Pipe Construction
For the file
animals.txt
from the previous exercise, the command:$ cut -d , -f 2 animals.txt
produces the following output:
deer rabbit raccoon rabbit deer fox rabbit bear
What other command(s) could be added to this in a pipeline to find out what animals the file contains (without any duplicates in their names)?
Solution
$ cut -d , -f 2 animals.txt | sort | uniq
Removing Unneeded Files
Suppose you want to delete your processed data files, and only keep your raw files and processing script to save storage. The raw files end in
.dat
and the processed files end in.txt
. Which of the following would remove all the processed data files, and only the processed data files?
rm ?.txt
rm *.txt
rm * .txt
rm *.*
Solution
- This would remove
.txt
files with one-character names- This is correct answer
- The shell would expand
*
to match everything in the current directory, so the command would try to remove all matched files and an additional file called.txt
- The shell would expand
*.*
to match all files with any extension, so this command would delete all files
Wildcard Expressions
Wildcard expressions can be very complex, but you can sometimes write them in ways that only use simple syntax, at the expense of being a bit more verbose.
Consider the directorydata-shell/north-pacific-gyre/2012-07-03
: the wildcard expression*[AB].txt
matches all files ending inA.txt
orB.txt
. Imagine you forgot about this.
Can you match the same set of files with basic wildcard expressions that do not use the
[]
syntax? Hint: You may need more than one expression.The expression that you found and the expression from the lesson match the same set of files in this example. What is the small difference between the outputs?
Under what circumstances would your new expression produce an error message where the original one would not?
Solution
$ ls *A.txt $ ls *B.txt
- The output from the new commands is separated because there are two commands.
- When there are no files ending in
A.txt
, or there are no files ending inB.txt
.
Which Pipe?
The file
data-shell/data/animals.txt
contains 586 lines of data formatted as follows:2012-11-05,deer 2012-11-05,rabbit 2012-11-05,raccoon 2012-11-06,rabbit ...
Assuming your current directory is
data-shell/data/
, what command would you use to produce a table that shows the total count of each type of animal in the file?
grep {deer, rabbit, raccoon, deer, fox, bear} animals.txt | wc -l
sort animals.txt | uniq -c
sort -t, -k2,2 animals.txt | uniq -c
cut -d, -f 2 animals.txt | uniq -c
cut -d, -f 2 animals.txt | sort | uniq -c
cut -d, -f 2 animals.txt | sort | uniq -c | wc -l
Solution
Option 5. is the correct answer. If you have difficulty understanding why, try running the commands, or sub-sections of the pipelines (make sure you are in the
data-shell/data
directory).
Appending Data
Consider the file
animals.txt
, used in previous exercise. After these commands, select the answer that corresponds to the fileanimalsUpd.txt
:$ head -3 animals.txt > animalsUpd.txt $ tail -2 animals.txt >> animalsUpd.txt
- The first three lines of
animals.txt
- The last two lines of
animals.txt
- The first three lines and the last two lines of
animals.txt
- The second and third lines of
animals.txt
Solution
3.
Key Points
cat
menampilkan isi dari input/argumennya.
head
menampilkan beberapa baris pertama dari inputnya.
tail
menampilkan beberapa baris terakhir dari inputnya.
sort
mensortir input.
wc
menghitung baris, kata dan karakter dari input.
*
mencocokkan nol atau lebih karakter dalam nama file, misal*.txt
akan mencocokkan semua file yang berakhiran dengan ekstensi.txt
.
?
mencocokkan satu karakter apapun dalam nama file, misal?.txt
akan mencocokkan dengana.txt
tetapi tidak cocok denganany.txt
.
command > file
menyalurkan output perintahcommand
ke dalamfile
.
first | second
adalah sebuah pipeline: output dari first digunakan sebagai input dari second.Cara terbaik menggunakan shell adalah dengan menggunakan pipes untuk mengkombinasikan program single-purpose sederhana (filters).