kikumotoのメモ帳

インフラ・ミドル周りを中心に、興味をもったことを適当な感じで。twitter : @takakiku

分散ファイルシステムを調べたい

Web上のストレージのバックエンドにできるような、分散ファイルシステムが欲しいのでいくつか調べてみたい。
今のところの本命は HDFSHadoop Distributed File System)だけど、一応いくつか目を通しておく必要はありそうだ。
とりあえず、「分散ファイルシステム/ブロックデバイスをまとめる - Blog by Sadayuki Furuhashi」を参考にしつつ、以下のような項目について調べてみよう。

  1. ファイルを分割して保存するかどうか
  2. サーバーやディスクが落ちても問題なくアクセスを受け付けられるか
  3. サーバーやディスクが落ちたときにデータが失われないか
  4. サーバーやディスクが落ちたとき、もしくはそれらが復帰したときに自動的にデータが修復されるか
  5. データ量の偏りがないように自動的にデータを再配置することができるか
  6. メタデータサーバの冗長化機能はあるか
  7. 読み込みの負荷分散
  8. 書き込みの負荷分散
  9. 動的なサイズの拡張
  10. 動的なサイズの縮小
  11. 実装形態(言語とか、カーネルパッチの必要性とか、利用する側の言語とか)
  12. mount できるか
  13. random access 可能か
  14. 実績はどんなものか
  15. ライセンス

一応対象の前提は OSS。現時点では、mogilefs, kfs, hdfs, glusterfs, lustre, ceph は見てみたい。とりあえずは、ドキュメントから得られる情報から集めよう。その後に絞り込んで、いくつかは動かしてみたい。