[SOLVED] Помогите определиться с FS

Всем привет!

Что есть:
2 сервера (MB ASUS, BIOS 2009 г/в, SW-RAID, 6x2Gb HDD 7200 SATA-II HGST, 2xCPU 2.4 6C/12T, RAM 192Gb) Полное Г...

Что нужно:
HA Cluster под вирт. машины. KVM ONLY ( 3 x Win2к8 guest )

Чего нет:
ДЕНЕГ!!! На New MB, HW-RAID, 15k HDD 4к SAS|SATA-III.

Пытаемся сделать из Г ... ням-ням в продакшн!

---------------------------------------------------------------

1) SATA в режиме SW-RAID-10 от 15 до 20 перезагрузок и разваливается, при чем на уровне bios. Вываливается в ресинхронизацию.
2) SATA в режиме AHCI + dmadm/mdadm - не доверяю + лишняя нагрузка на проц.

---------------------------------------------------------------

2ю неделю курю маны, форумы, бенчмарки, советы и пр. по btrfs и zfs, но ни как не могу определиться, т.к. zfs пока нет в ядре а с btrfs не уверен что ее умеет DRBD. Хотя в обоих случаях заманчивые снапшоты и поддержка RAID-10 на уровне FS.
Важна стабильность, надежность и IOPS.

Очень нужен совет!

.

ЕМНИП zfs в Linux — только модулем, из-за проблемы совместимости лицензий.

:wq
--
Live free or die

Не обязательно, можно

Не обязательно, можно интегрировать в ядро.

А разница в скорости между

А разница в скорости между модульной поддержкой и нативной есть?

Правильно заданный вопрос - половина ответа!
Логики и довода — недостаточно. Надо еще зачморить тех, кто думает не так как мы. (South Park)

ну и нафига тебя zfs - это

ну и нафига тебя zfs - это же не кластерная fs. Кроме того, практический потолок в 2000 iops по коду фс удручает.
Зойчем тебе вообще нужна ФС ?

П.С дрбд без двойного фенсинга - бред.

Compute:
Bosch M2.8.1 -> custom Bosch M2.8.3 clone from Russia.
Speed about 260 km,Ram 2 pers.,HDD - 70 kg,210 FLOPS ;)

Ввиду отсутствия HW-RAID и

Ввиду отсутствия HW-RAID и требования сохранности данных при выходе из строя HDD | MB | etc это единственные фс с поддержкой RAID-10 ибо софтрейд на данной матери разваливается.
GlusterFS не много не то или у меня просто нет понимания ее работы.
Это пока только то, что я нашел и я все еще в поиске оптимального решения.

Правильно заданный вопрос - половина ответа!
Логики и довода — недостаточно. Надо еще зачморить тех, кто думает не так как мы. (South Park)

LinuxID написал(а): ибо

LinuxID написал(а):
ибо софтрейд на данной матери разваливается.

Я может быть чего-то недопонимаю, но если разваливается софтовый рейд, то откуда уверенность, что файловая система разваливаться не будет?

Разваливается SW-RAID

Разваливается SW-RAID собранный на базе BIOS.

Правильно заданный вопрос - половина ответа!
Логики и довода — недостаточно. Надо еще зачморить тех, кто думает не так как мы. (South Park)

используй mdadm и не парь

используй mdadm и не парь голову ни себе, ни людям

Т.е. фейковый РАЙД.Правильно

Т.е. фейковый РАЙД.

Правильно тебе сказали: "используй mdadm и не парь голову ни себе, ни людям"! :)

LinuxID написал(а): А разница

LinuxID написал(а):
А разница в скорости между модульной поддержкой и нативной есть?

нет, нету.

Compute:
Bosch M2.8.1 -> custom Bosch M2.8.3 clone from Russia.
Speed about 260 km,Ram 2 pers.,HDD - 70 kg,210 FLOPS ;)

LinuxID написал(а):...1)

LinuxID написал(а):
...
1) SATA в режиме SW-RAID-10 от 15 до 20 перезагрузок и разваливается...

Что такое SW-RAID? Уж не встроеный fake-RAID ли? ;) Если так, то НИГДЕ и НИКОГДА его не используй!!! Это чистой воды развод.

LinuxID написал(а):
2) SATA в режиме AHCI + dmadm/mdadm - не доверяю + лишняя нагрузка на проц.

Да ладно, программные RAID'ы от Линукса отлично работают, не в пример дешевым псевдо(fake)- якобы RAID контроллерам. Годами использую, в том числе в весьма ответственных производственных системах, где это уместно. Веру оставь попам, а здесь техника: если сомневаешься - сделай тесты! Да и нагрузка там заметная только при синхронизации, да и то если проц свободен.

P.S. Вот тебе пример программных RAID'ов для DRBD в производственном кластере с похожим назначением, только там не Винда крутится на виртуалках, а Линукс, который к тому же раздает NFS-шары с этих же программных RAID'ов через ЛВМ для первичных дисковых backup'ов:

Personalities : [raid1] [raid6] [raid5] [raid4] 
md2 : active raid6 sdc[0] sdg[4] sde[2] sdh[5] sdd[1] sdf[3]
      1953021952 blocks super 1.2 level 6, 512k chunk, algorithm 2 [6/6] [UUUUUU]
      bitmap: 0/4 pages [0KB], 65536KB chunk

md1 : active raid1 sda2[0] sdb2[1]
      63264896 blocks super 1.2 [2/2] [UU]
      
md0 : active raid1 sda1[0] sdb1[1]
      8388544 blocks [2/2] [UU]
GIT-hash: 3a6a769340ef93b1ba2792c6461250790795db49 build by phil@Build64R7, 2016-01-12 14:29:40
 0: cs:Connected ro:Primary/Primary ds:UpToDate/UpToDate C r---b-
    ns:40 nr:66867728 dw:66867768 dr:8996 al:6 bm:0 lo:0 pe:0 ua:0 ap:0 ep:1 wo:d oos:0
 1: cs:Connected ro:Primary/Primary ds:UpToDate/UpToDate C r-----
    ns:24 nr:780337414 dw:783613660 dr:3412 al:3 bm:0 lo:0 pe:0 ua:0 ap:0 ep:1 wo:d oos:0
 2: cs:Connected ro:Primary/Primary ds:UpToDate/UpToDate C r-----
    ns:16 nr:224 dw:240 dr:340 al:1 bm:0 lo:0 pe:0 ua:0 ap:0 ep:1 wo:d oos:0
  PV         VG   Fmt  Attr PSize  PFree  
  /dev/drbd0 data lvm2 a--   1.82t   1.82t
  /dev/drbd1 data lvm2 a--   2.73t 123.16g
  /dev/drbd2 data lvm2 a--   2.73t   2.73t
  /dev/md1   sys  lvm2 a--  60.33g  25.70g
LinuxID написал(а):
...zfs пока нет в ядре а с btrfs не уверен что ее умеет DRBD... заманчивые снапшоты и поддержка RAID-10 на уровне FS.

Вот это уже махровая глупость и очередной развод! FYI:

1. btrfs - еще бета, и не готова к производственной эксплуатации за исключением некоторых специфических случаев. Например, она до сих пор не работает нормально с rsync и т.д...
2. zfs не будет в ядре в обозримом будущем из-за лицензионных ограничений.
3. FS не должна уметь RAID*! Она должна хорошо работать с файлами, директориями и пр., а RAID - это дисковый уровень!

LinuxID написал(а):
Важна стабильность, надежность и IOPS.

За все надо платить! Ты не можешь требовать супер-производительности и надежности от железа, купленного за рупь на барахолке. :) Думаю, что приведенный выше пример конфигурации вполне отвечает твоим требованиям. Могу только еще посоветовать использовать Proxmox в качестве бесплатного кластерного решения для начала...

А как на счет скорости

А как на счет скорости dmadm/mdadm при восстановлении SW-RAID-10 4Тб при замене вышедшего из строя HDD? Дня 2-3? SATA-II же!

Правильно заданный вопрос - половина ответа!
Логики и довода — недостаточно. Надо еще зачморить тех, кто думает не так как мы. (South Park)

Что SATA-II? если ты

Что SATA-II? если ты считаешь, что данный интерфейс является бутылочным горлышком, то непонятно тогда, как этот факт влияет на выбор между mdadm, zfs, btfsf и пр. Думаешь они минуя саташный интерфейс работать будут?

Нет, я так не думаю! Есть

Нет, я так не думаю! Есть подозрение что ресинхронизация программного рейда будет намного дольше чем, к примеру, рейд на базе zfs.

Правильно заданный вопрос - половина ответа!
Логики и довода — недостаточно. Надо еще зачморить тех, кто думает не так как мы. (South Park)

Ага, опять гадания?.. ;)Ты

Ага, опять гадания?.. ;)

Ты на тех.форуме, Люк!

За ЗФС не скажу (не работал реально), но БТР тот еще тормоз! И тем более - при смене диска, да и сама замена - тот еще геморрой в отличие от МДАДМ/ЛВМ, где все легко и просто делается на лету. А главное - данные остаются доступны и во время удаления/смены диска, и во время синхронизации.

И повторюсь: у БТРа большие проблемы при работе с rsync, SVN на больших об'емах данных. Но админы локалхоста могут не беспокоиться, конечно! :D

А насчет узкого места могу сказать, что тебе больше придется опасаться синхронизации ДРБД - вот там действительно и тормоза, и проблемы!

LinuxID написал(а): А как на

LinuxID написал(а):
А как на счет скорости dmadm/mdadm при восстановлении SW-RAID-10 4Тб при замене вышедшего из строя HDD? Дня 2-3? SATA-II же!

Можно же посчитать

4 000 000 000 000 Байт / 50 000 000 Б/сек /3600 сек = 22 часа.

:)

Ага, и работать при этом ни

Ага, и работать при этом ни кто не будет т.к. будет занят проц )

Правильно заданный вопрос - половина ответа!
Логики и довода — недостаточно. Надо еще зачморить тех, кто думает не так как мы. (South Park)

Да ладно!Почитай теорию -

Да ладно!
Почитай теорию - Линуксовый РАЙД не блокирует доступ к данным и зеркализация/синхронизация идет параллельно в фоне (в отличие от ...!), при этом НИКОГДА не забираются все ресурсы, т.е. работать вполне себе можно (проверено неоднократно в разных конфигурациях!)! Я даже не говорю о том, что для синхронизации используется только 1 ядро, а у тебя их 6! При правильной настройке системы никто даже не заметит...

/

«Большие объёмы данных» это сколько?
В петабайтах… ☺

:wq
--
Live free or die

Oпять ниткой промахнулся?

Oпять ниткой промахнулся? :)
Может тебе все-таки пора перейти на древовидную структуру комментариев? ;)

А пока, несмотря на риторическую форму вопроса, отвечу буквально: таки-да, я работал с петабайтными массивами, причем когда я пришел в ту контору, там было 7 Пб, когда уходил - 13Пб. И поскольку, полагаю, вопрос был с связан с btrfs, то с радостью сообщу, что его там не было, хотя следует отметить, что проблема у БТР зависит не столько от об'ема, сколько от структуры данных и размера метаданных. Кстати этот баг с rsync у них зарегистрирован, висит уже несколько лет и до сох пор не решен.

А ты полагаешь, что твой

А ты полагаешь, что твой фейковый РАЙД быстрее будет?! Ты не поверишь: SATA в режиме AHCI работает несколько быстрее!

Наивный... скорость практически та же, а риск потери данных куда выше... к тому же при вылете контроллера нужен точно такой же на замену, поскольку у разных производителей и даже разных моделей одного производителя внутренние форматы данных могут отличаться. Это мы тоже проходили, причем не на фейковом, а на нормальном скази-контроллере известного бренда, просто он устарел и его уже не продавали. Пришлось обращаться к производителю напрямую за совместимым контроллером, чтобы данные считать. Сам прикинь время... :)

Ладно вам, Народ! Не

Ладно вам, Народ! Не наезжайте. я просто спросил про btrfs и zfs. Это не камень преткновения.
Я принял совет про mdadm.
Какую фс ставить поверх mdX для работы гостевой Win2k8R2 c MSSQL в который прилетает порядка 3-5т. за час?

1. EXT-4 noacl data=writeback commit=600 barrier=0?
2. Может вообще EXT-2? она шустрая.

Правильно заданный вопрос - половина ответа!
Логики и довода — недостаточно. Надо еще зачморить тех, кто думает не так как мы. (South Park)

Никакую - ибо лишний уровень

Никакую - ибо лишний уровень никому не впился. Юзай поверх lvm - будет счастье. Конфига, в том числе с дрбд проверена в боевых уловиях на овер 100 VM.

P.S мдадм? - ты еще не видел ресивелинг зфс, вот при нем ты будешь курить бамбук 5 суток на твоей конфиге, и при этом работать ничего не будет - по дефекту днк zfs забирает __всю__ ширину канала при ресинке, и это никак не регулируется, в отличии от мдадм.

Compute:
Bosch M2.8.1 -> custom Bosch M2.8.3 clone from Russia.
Speed about 260 km,Ram 2 pers.,HDD - 70 kg,210 FLOPS ;)

А логический том на прямую

А логический том на прямую отдать виртуалке? Я Вас правильно понял?

Правильно заданный вопрос - половина ответа!
Логики и довода — недостаточно. Надо еще зачморить тех, кто думает не так как мы. (South Park)

virsh pool-define , где пул -

virsh pool-define , где пул - VG,соотв. под машины будут LV, если захочется залезть внуитрь - kpartx, dm-setup, ......
бекап - снапшотами.
Где делать HA в данном случае - это вопрос тестов

Compute:
Bosch M2.8.1 -> custom Bosch M2.8.3 clone from Russia.
Speed about 260 km,Ram 2 pers.,HDD - 70 kg,210 FLOPS ;)

[quote=slepnoga Где делать HA

[quote=slepnoga
Где делать HA в данном случае - это вопрос тестов

Под "делать HA" подразумевается, что тебе нужно определится, drbd vs cman, и на каком уровне drbd ты будешь мирроить.
Еще раз повторюсь - кионфиги drbd без двойного фенсинга бредовы и не поддрживаются апстримом

Compute:
Bosch M2.8.1 -> custom Bosch M2.8.3 clone from Russia.
Speed about 260 km,Ram 2 pers.,HDD - 70 kg,210 FLOPS ;)

А миграция будет работать при

Планирую drbd по С на уровне рейда. Т.е. ниже лвм.
А вот по поводу двойного фенсинга ... можно в кратце? resource-and-stonith?

Правильно заданный вопрос - половина ответа!
Логики и довода — недостаточно. Надо еще зачморить тех, кто думает не так как мы. (South Park)

да, например ipmi/pdu

да, например ipmi/pdu

Compute:
Bosch M2.8.1 -> custom Bosch M2.8.3 clone from Russia.
Speed about 260 km,Ram 2 pers.,HDD - 70 kg,210 FLOPS ;)

Настройки просмотра комментариев

Выберите нужный метод показа комментариев и нажмите "Сохранить установки".