10.02.2020

Paketverlust im gesamten Netzwerk

Nachdem combahton Ihren Netzwerkstatus von "Major Outage" zu "Operational" geändert hat, sind wir davon ausgegangen, dass die Störung vorläufig behoben ist. Leider wurden wir heute erneut von einigen Meldungen unseres Monitorings auf Paketverluste hingewiesen.

Es sind immer wieder ca. 30-60 Sekunden Paketverluste von bis zu 80% oder volle Timeouts zu sehen. Die Situation ist sehr unglücklich, es tut uns wirklich leid und auch das ist nicht unser Qualitätsanspruch.

Genau deswegen haben wir den Fall erneut an combahton eskaliert und bereits folgende Rückmeldung erhalten:

  • Ausfall gegen 12:45 Uhr: Eine unerkannte DDoS-Attacke, welche durch weitere Einstellungen am ausgetauschten Router behoben wurde.
  • Ausfall gegen 15:45 Uhr: Bisher unbekannt.
  • Ausfall gegen 17:03 Uhr: Bisher unbekannt.

Es wurde uns nun noch einmal versichert, dass die Situation weiterhin stabilisiert wird. Wir werden jede weiteren Paketverlust melden und weiterhin mit combahton daran arbeiten.

Update:

  • 19:00 Uhr - Network Disturbance - Defective QSFP+ transceiver

We have identified a defective QSFP+ transceiver which led to last days issues. The transceiver sporadically causes a control process within Juniper JunOS to go stuck, which then causes a Kernel Panic of our Core Router at Interxion Frankfurt.

Fortunately, we were able to identify the issue. The previous equipment was not throwing any errors related to module, beside it had the same syslog configuration.

As a temporary solution, we have disabled the port and other members in the same LACP channel. Staff is currently on it's way to the datacenter in order to remove the broken transceiver. Network availability is ensured by remaining uplinks.

  • Update 19:26: Staff has arrived on-site, we are removing the transceiver in question.

  • Update 19:42: We have identified the defective optics.


Network Maintenance - FFM3

We are going to carry out a network maintenance at Interxion Frankfurt. The maintenance is intended to resolve all issues which have arisen over the last days, due to dying QSFP+ transceivers.

We have bought a load of new QSFP+ transceivers and will use them as replacement after extensive load testing.

The plan is the following: -We will do load testing with our uplinks to Core-Backbone throughout the day -If we dont see any issues, we will keep the so announced maintenance window -If we do see any issues with the new transceivers, which is very unlikely the case, we will cancel the maintenance -The maintenance will be carried out at the 12th February 2020 - 01:00 am UTC+1 till 04:00 am UTC+1 -As a customer directly connected to core1-ffm3, please expect a downtime or at least packetloss of about 1-2 hours

We hope the best to resolve the issue with these pretty elaborate steps.

Update 01:30 UTC+1: The upgrade has been carried out successfully, new optics are in operation too.

https://status.combahton.net/incident/183/