Cuando empieza a pasar se tira un rato (o largo rato) pasando, hasta que de repente vuelve a funcionar (ahora mismo me acaba de pasar y ha durado sólo unos minutos)
Lo he reiniciado yo. Si hay algún admin a mano y tarda en volver le damos el famoso "botonazo".
Hay dos tipos de caídas. La más frecuente es por problemas de memoria (OOM). Por lo general, el sistema de gestión acaba detectando que hay un proceso que está consumiendo demasiados recursos, lo mata y lo reinicia. A veces tarda más y a veces menos, dependiendo de qué sea lo que ha dejado de funcionar. Las otras, no parecen explicables y me temo que sea por sobre explotación de las máquinas en las que nos encontramos.
Hay un proyecto de migración que pasa por descartar que el fallo es nuestro. Es decir, que no son nuestros scripts (los del foro y las páginas) los que causan las caídas, para lo cuál tengo que actualizar todo a la última versión y probar algunos plugins como los de gestión de caché. Pero son cosas que no solo llevan tiempo, sino que requiere que cuando te vas a poner a ello dispongas de unos días de margen en los que vas a poder tratar posibles incidencias, así como estar las horas seguidas que requiera cada uno de los procesos.
Una vez alcanzado ese punto, viene el de desactivar partes concretas para tratar de aislar el problema. Y finalmente, la posibilidad de migrar a otro servidor. Comenté que lo intentaría durante el verano, pero de momento solo he podido hacer algunas cosas. Hay que tener en cuenta que además de fotolibre, hay otros dominios en el mismo VPS, aunque al ser este el de mayor tráfico con diferencia, es el primer sospechoso.
Algo más de información
aquí y por otros hilos.
Saludos,
Colegota