38Automated Retraining Methods for Document Classification and Their Parameter 
Tuning

Siersdorfer, Stefan; Weikum, Gerhard; Ngu, Anne H. H.; Kitsuregawa, Masaru; Neuhold, Erich J.; Chung, Jen-Yao; Sheng, Quan Z.

Lokale TagsFreigabegeschichteDetailsÜbersicht

38Automated Retraining Methods for Document Classification and Their Parameter Tuning

Siersdorfer, S., & Weikum, G. (2005). 38Automated Retraining Methods for Document Classification and Their Parameter Tuning. In Web information systems engineering - WISE 2005: 6th International Conference on Web Information Systems Engineering (pp. 478-486). Berlin, Germany: Springer.

Item is Freigegeben

einblenden: alle ausblenden: alle

Basisdaten

einblenden: ausblenden:

Datensatz-Permalink: https://hdl.handle.net/11858/00-001M-0000-000F-25D8-D Versions-Permalink: https://hdl.handle.net/11858/00-001M-0000-000F-25DA-9

Genre: Konferenzbeitrag

Dateien

einblenden: Dateien

ausblenden: Dateien

:

SiersdorferW-WISE05.pdf (beliebiger Volltext), 330KB

Datei-Permalink:
-

Name:
SiersdorferW-WISE05.pdf

Beschreibung:
-

OA-Status:

Sichtbarkeit:
Privat

MIME-Typ / Prüfsumme:
application/pdf

Technische Metadaten:

Copyright Datum:
-

Copyright Info:
-

Lizenz:
-

Externe Referenzen

einblenden:

Urheber

einblenden:

ausblenden:

Urheber:
Siersdorfer, Stefan¹, Autor
Weikum, Gerhard¹, Autor
Ngu, Anne H. H., Herausgeber
Kitsuregawa, Masaru, Herausgeber
Neuhold, Erich J., Herausgeber
Chung, Jen-Yao, Herausgeber
Sheng, Quan Z., Herausgeber

Affiliations:
1Databases and Information Systems, MPI for Informatics, Max Planck Society, ou_24018

Inhalt

einblenden:

ausblenden:

Schlagwörter: -

Zusammenfassung: This paper addresses the problem of semi-supervised classification on document collections using retraining (also called self-training). A possible application is focused Web crawling which may start with very few, manually selected, training documents but can be enhanced by automatically adding initially unlabeled, positively classified Web pages for retraining. Such an approach is by itself not robust and faces tuning problems regarding parameters like the number of selected documents, the number of retraining iterations, and the ratio of positive and negative classified samples used for retraining. The paper develops methods for automatically tuning these parameters, based on predicting the leave-one-out error for a re-trained classifier and avoiding that the classifier is diluted by selecting too many or weak documents for retraining. Our experiments with three different datasets confirm the practical viability of the approach.

Details

einblenden:

ausblenden:

Sprache(n): eng - English

Datum: Geändert: 2006-01-20Erschienen: 2005

Publikationsstatus: Erschienen

Seiten: -

Ort, Verlag, Ausgabe: -

Inhaltsverzeichnis: -

Art der Begutachtung: -

Identifikatoren: eDoc: 278887
Anderer: Local-ID: C1256DBF005F876D-93705A0E8058ECB5C12570D300438C11-SiersdorferW-WISE05

Art des Abschluß: -

Veranstaltung

einblenden:

ausblenden:

Titel: Untitled Event

Veranstaltungsort: New York, USA

Start-/Enddatum: 2005-11-20

ausblenden:

Titel: Web information systems engineering - WISE 2005 : 6th International Conference on Web Information Systems Engineering

Genre der Quelle: Konferenzband

Urheber:

Affiliations:

Ort, Verlag, Ausgabe: Berlin, Germany : Springer

Seiten: - Band / Heft: - Artikelnummer: - Start- / Endseite: 478 - 486 Identifikator: ISBN: 3-540-30017-1

Quelle 2

einblenden:

ausblenden:

Titel: Lecture Notes in Computer Science

Genre der Quelle: Reihe

Urheber:

Affiliations:

Ort, Verlag, Ausgabe: -

Seiten: - Band / Heft: 3806 Artikelnummer: - Start- / Endseite: - Identifikator: -

Datensatz

Basisdaten

Dateien

Externe Referenzen

Urheber

Inhalt

Details

Veranstaltung

Entscheidung

Projektinformation

Quelle 1

Quelle 2