Commit ede431d6 authored by pracht's avatar pracht
Browse files

First draft to describe problem with MultiWOZ data

parent 55730cc6
Loading
Loading
Loading
Loading
+61 −0
Original line number Diff line number Diff line
## Das Problem mit den MultiWOZ-Daten:

### Annotationen beinhalten keine semantischen Informationen
Beispiel Satz:
```
> "I have 4 different options for you. I have two cheaper guesthouses and two expensive hotels. Do you have a preference?"
```

Während in der Äußerung `cheap` stark mit `guesthouses` und `expensive` mit `hotels` verbunden sind, wird diese Information nicht in den Annotationen abgebildet.

Eine korrekte Rekonstruktion wird dadurch zufällig.

```json
choice: "4",
pricerange: "cheaper",
pricerange: "expensive",
type: "guesthouses",
type: "hotels",
```

So müssten die Annotationen zum Beispiel aussehen, wenn wir den Dialog semantisch korrekt wiedergeben können wollen:

```clj
choice(4, (
    choice(2, cheaper(guesthouse)), 
    choice(2, expensive(hotel))
))
```
oder

```json
choice: [
    0: {
        type: "guesthouse", 
        pricerange: "cheap",
    },
    1: {
        type: "guesthouse", 
        pricerange: "cheap",
    },
    2: {
        type: "hotel", 
        pricerange: "expensive",
    },
    3: {
        type: "hotel", 
        pricerange: "expensive",
    },
]
```

#### Mögliche Lösungen

Kategorisches aussortieren von Dialogen mit Wahlmöglichkeiten ist keine Option, weil es zum einen zu viele sind, und zum anderen die komplexeren, interessanteren Dialoge sein werden.

```
6599/10438 Dialoge mit `choice` (train: 5231/8438, validation: 681/1000, test: 687/1000)
10759/52190 Slots mit `choice` (train: 8476/42190, validation: 1121/5000, test: 1162/5000)
```

Von 10759 sind nur 372 Slots mit `choice: "2"`, was man ohne Probleme abbilden könnte.