Time: | Monday, 5. DS (14:50 to 16:20) |
Location: | INF E023 |
Quantity: | 2V/2Ü/0P SWS |
Language: | German |
Modules: | D-WW-INF-3421, D-WW-INF-3422, D-WW-INF-3423, INF-04-FG-AVS, INF-B-510, INF-B-520, INF-B-530, INF-B-540, INF-BAS2, INF-BAS4, INF-LE-WW, INF-PM-FOR, INF-VERT2, INF-VERT4, MINF-04-FG-IAS, WI-BA-08 |
In der heutigen digitalen Informationswelt werden zunehmend immer mehr Daten in den unterschiedlichsten Datenbanken bzw. Dateisystems gespeichert. In diesem Sinne kann davon gesprochen werden, dass in naher Zukunft keine Daten in jeglichen Anwendungsbereichen mehr verloren gehen können. Durch diesen Umstand gewinnt der Bereich des Information Retrievals immer mehr an Bedeutung. Dieser Bereich widmet sich in erster Linie, wie in derartig großen und überwiegend unstrukturierten Datenbeständen überhaupt noch effizient gesucht werden kann. Populäre Anwendungen sind WWW-Suchmaschinen, Digitale Bibliotheken und Multimedia-Archive wie z.B. Bilddatenbanken.
Aufgrund der Vagheit des Informationsbedürfnisses und der unsicheren Repräsentation des Inhaltes der gespeicherten Objekte sind Standard-Datenbankmethoden wenig brauchbar, sondern müssen um die Konzepte Vagheit bzw. Unsicherheit erweitert werden. Da die inhaltsorientierte Suche im Vordergrund steht, sind zudem spezielle Verfahren zur Repräsentation des Inhaltes von Texten notwendig. Das Ziel der Vorlesung besteht darin, einen Einblick in diesen Themenkomplex zu geben.
Teil | Inhalt | Skript | Material |
---|---|---|---|
0 | Organizational Issues | ||
1 | Introduction | ||
2 | Boolean Retrieval, Phrase Queries and Positional Indexes | Shakespeare Complete Text, shakespeare.ipynb | |
3 | Term vocabulary and Normalization | Porter Stemmer, stemming.ipynb, part_of_speech.ipynb, porter.ipynb | |
4 | Dictionaries and tolerant retrieval | Levenshtein Demo, spelling.ipynb, soundex.ipynb, levenshtein.ipynb, big.txt |
|
5 | Scoring, term weighting and the vector space model | vectorspace.ipynb, wikipedia_vectorspace.ipynb |
|
6 | Implementing IR-System I: Index compression | Zipf’s Law Notebook and Example Data | |
7 | Implementing IR-System II: Index construction | ||
8 | Query Processing and Optimization | Query Evaluation: Strategies and Optimizations | |
9 | Evaluation in information retrieval | precision-recall-curve.ipynb | |
10 | Relevance feedback and query expansion | ||
11 | Probabilistic information retrieval | ||
12 | Language models for information retrieval | ||
13 | PageRank and HITS | pagerank.ipynb | |
14 | Text Classification – Intro | ||
15 | Rule-based Text Classification | ||
16 | Naive Bayes Text Classification | ||
Informationen zur Prüfung |