Generating Visual Explanations

Hendricks, Lisa Anne; Akata, Zeynep; Rohrbach, Marcus; Donahue, Jeff; Schiele, Bernt; Darrell, Trevor

doi:10.1007/978-3-319-46493-0_1

DetailsÜbersicht

Generating Visual Explanations

Hendricks, L. A., Akata, Z., Rohrbach, M., Donahue, J., Schiele, B., & Darrell, T. (2016). Generating Visual Explanations. In B. Leibe, J. Matas, N. Sebe, & M. Welling (Eds.), Computer Vision -- ECCV 2016 (pp. 3-19). Berlin: Springer. doi:10.1007/978-3-319-46493-0_1.

Item is Freigegeben

einblenden: alle ausblenden: alle

Basisdaten

einblenden: ausblenden:

Datensatz-Permalink: https://hdl.handle.net/11858/00-001M-0000-002A-FCE5-9 Versions-Permalink: https://hdl.handle.net/11858/00-001M-0000-002B-8474-2

Genre: Konferenzbeitrag

ausblenden:

Urheber:
Hendricks, Lisa Anne¹, Autor
Akata, Zeynep², Autor
Rohrbach, Marcus¹, Autor
Donahue, Jeff¹, Autor
Schiele, Bernt², Autor
Darrell, Trevor¹, Autor

Affiliations:
1External Organizations, ou_persistent22
2Computer Vision and Multimodal Computing, MPI for Informatics, Max Planck Society, ou_1116547

Inhalt

einblenden:

ausblenden:

Schlagwörter: Computer Science, Computer Vision and Pattern Recognition, cs.CV,Computer Science, Artificial Intelligence, cs.AI,Computer Science, Computation and Language, cs.CL

Zusammenfassung: Clearly explaining a rationale for a classification decision to an end-user can be as important as the decision itself. Existing approaches for deep visual recognition are generally opaque and do not output any justification text; contemporary vision-language models can describe image content but fail to take into account class-discriminative image aspects which justify visual predictions. We propose a new model that focuses on the discriminating properties of the visible object, jointly predicts a class label, and explains why the predicted label is appropriate for the image. We propose a novel loss function based on sampling and reinforcement learning that learns to generate sentences that realize a global sentence property, such as class specificity. Our results on a fine-grained bird species classification dataset show that our model is able to generate explanations which are not only consistent with an image but also more discriminative than descriptions produced by existing captioning methods.

Details

einblenden:

ausblenden:

Sprache(n): eng - English

Datum: Angenommen: 2016Online veröffentlicht: 2016Erschienen: 2016

Publikationsstatus: Erschienen

Seiten: 17 p.

Ort, Verlag, Ausgabe: -

Inhaltsverzeichnis: -

Art der Begutachtung: -

Identifikatoren: BibTex Citekey: Hendricks2016
DOI: 10.1007/978-3-319-46493-0_1

Art des Abschluß: -

Veranstaltung

einblenden:

ausblenden:

Titel: 14th European Conference on Computer Vision

Veranstaltungsort: Amsterdam, The Netherlands

Start-/Enddatum: 2016-10-11 - 2016-10-14

Entscheidung

einblenden:

Projektinformation

einblenden:

Quelle 1

einblenden:

ausblenden:

Titel: Computer Vision -- ECCV 2016

Kurztitel : ECCV 2016

Untertitel : 14th European Conference ; Amsterdam, The Netherlands, October 11–14, 2016 ; Proceedings, Part IV

Genre der Quelle: Konferenzband

Urheber:
Leibe, Bastian¹, Herausgeber
Matas, Jiri¹, Herausgeber
Sebe, Nicu¹, Herausgeber
Welling, Max¹, Herausgeber

Affiliations:
1 External Organizations, ou_persistent22

Ort, Verlag, Ausgabe: Berlin : Springer

Seiten: - Band / Heft: - Artikelnummer: - Start- / Endseite: 3 - 19 Identifikator: ISBN: 978-3-319-46492-3

Quelle 2

einblenden:

ausblenden:

Titel: Lecture Notes in Computer Science

Kurztitel : LNCS

Genre der Quelle: Reihe

Urheber:

Affiliations:

Ort, Verlag, Ausgabe: -

Seiten: - Band / Heft: 9908 Artikelnummer: - Start- / Endseite: - Identifikator: -

Datensatz

Basisdaten

Dateien

Externe Referenzen

Urheber

Inhalt

Details

Veranstaltung

Entscheidung

Projektinformation

Quelle 1

Quelle 2