kikumotoのメモ帳

インフラ・ミドル周りを中心に、興味をもったことを適当な感じで。twitter : @takakiku

hdfs

ローカルからHDFSマウントへのrsync

ローカル領域 -> HDFSマウント領域の rsync をするには、 rsync --temp-dir=/local/path/tmp -avOW --delete local/ /mnt/hdfs/ のようなオプションをつける必要があるみたい。 --temp-dir を指定しないと、HDFS マウント領域上にテンポラリファイルを作成し…

decommission、rebalance

decommission DataNode をクラスタから削除したい場合、前回書いたようにノードを停止してしまえば目的は果たせるけれど、停止により複製数が満たなくなるブロックができてしまい、自動複製されるまでにさらにノードが死んだりしたらデータ喪失になりかねな…

ノードの追加・削除

ノードの追加・削除といった Hadoop の運用面について少し調べてみたのでメモ。 ノードの追加 ノードを追加するにはだいたい以下のような手順となる。 Hadoop のソフトウェアをインストールする。 このとき、hadoop-env.sh や conf/*.xml も設定しておく。 N…

HDFSへのアクセスユーザ

HDFS Permissions Guide を見ると、HDFS では Linux とかで見られるようなパーミッションが設定されるようになっているらしい。そしてスーパーユーザは NameNode の実行ユーザになるらしい。確かに今までは HDFS に対する操作を hadoop ユーザで行ってきたの…

HDFSのマウント

Hadoop Wiki に MountableHDFS というのがあり、HDFS をマウントできるようなことが書いてあるので試してみたので、それをメモしておく。いくつか実装があるようだけど、今回試したのは fuse-dfs というもの。こちらのサイトも参考にさせていただいた。gcc, …

HDFSの読み書き

Hadoop を設定できたので、Java からHDFSにファイルを置いたり、HDFSからファイルを読み出したりする方法をメモっておく。以下で、大きく分けて2種類の方法を書いているけれど、共通な点としてまず、Configuration クラスのインスタンスを用意しておくとい…