|
|
(Eine dazwischenliegende Version desselben Benutzers wird nicht angezeigt) |
Zeile 250: |
Zeile 250: |
| :<math>\left\langle b({{P}_{i}}) \right\rangle =-\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln {{P}_{i}}</math> | | :<math>\left\langle b({{P}_{i}}) \right\rangle =-\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln {{P}_{i}}</math> |
|
| |
|
| Definition: Shannon- Information einer Verteilung <math>\left\{ {{P}_{i}} \right\}</math> | | {{Def|Definition: '''Shannon-Information''' einer Verteilung <math>\left\{ {{P}_{i}} \right\}</math>: |
|
| |
|
| : | | ::<math>I(P)=\sum\limits_{i=1}^{N}{{}}{{P}_{i}}\ln {{P}_{i}}</math>|Shannon-Information}} |
|
| |
|
| :<math>\begin{align} | | :<math>\begin{align} |
|
| |
| & I(P)=\sum\limits_{i=1}^{N}{{}}{{P}_{i}}\ln {{P}_{i}} \\
| |
|
| |
|
| & P=\left( {{P}_{1}}...{{P}_{N}} \right) \\ | | & P=\left( {{P}_{1}}...{{P}_{N}} \right) \\ |
Zeile 277: |
Zeile 275: |
|
| |
|
| um <math>\delta {{P}_{i}}</math> | | um <math>\delta {{P}_{i}}</math> |
|
| |
| unter der Nebenbedingung | | unter der Nebenbedingung |
|
| |
|
Zeile 292: |
Zeile 289: |
| Addition der Nebenbedingung <math>\sum\limits_{i}^{{}}{{}}\delta {{P}_{i}}=0</math> | | Addition der Nebenbedingung <math>\sum\limits_{i}^{{}}{{}}\delta {{P}_{i}}=0</math> |
|
| |
|
| mit dem Lagrange- Multiplikator <math>\lambda </math> | | mit dem Lagrange- Multiplikator <math>\lambda </math>: |
| | |
| : | |
|
| |
|
| :<math>\sum\limits_{i=1}^{N}{{}}\left( \ln {{P}_{i}}+1+\lambda \right)\delta {{P}_{i}}=0</math> | | :<math>\sum\limits_{i=1}^{N}{{}}\left( \ln {{P}_{i}}+1+\lambda \right)\delta {{P}_{i}}=0</math> |
Zeile 300: |
Zeile 295: |
| unabhängige Variation <math>\delta {{P}_{i}}\Rightarrow \forall i\Rightarrow \ln {{P}_{i}}=-\left( 1+\lambda \right)=const.</math> | | unabhängige Variation <math>\delta {{P}_{i}}\Rightarrow \forall i\Rightarrow \ln {{P}_{i}}=-\left( 1+\lambda \right)=const.</math> |
|
| |
|
| Normierung <math>\sum\limits_{i}^{{}}{{}}{{P}_{i}}=1=N{{P}_{i}}\Rightarrow {{P}_{i}}=\frac{1}{N}</math> | | Normierung <math>\sum\limits_{i}^{{}}{{}}{{P}_{i}}=1=N{{P}_{i}}\Rightarrow {{P}_{i}}=\frac{1}{N}</math>, also Gleichverteilung |
| , | |
| also Gleichverteilung
| |
|
| |
|
| '''Übung: '''Man vergleiche I(P) für verschiedene Verteilungen | | '''Übung: '''Man vergleiche I(P) für verschiedene Verteilungen |
Zeile 384: |
Zeile 377: |
| Mittlere Bitzahl (mit der korrigierten Wahrscheinlichkeitsverteilung gewichtet): | | Mittlere Bitzahl (mit der korrigierten Wahrscheinlichkeitsverteilung gewichtet): |
|
| |
|
| :<math>K\left( P,P\acute{\ } \right)=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}</math> | | {{Def|:<math>K\left( P,P\acute{\ } \right)=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}</math> |
|
| |
|
| '''Informationsgewinn ''' → Kullback Information! | | '''Informationsgewinn ''' → Kullback Information!|Kullback Information}} |
|
| |
|
| '''Bemerkungen''' | | '''Bemerkungen''' |
|
| |
|
| # mittlere Bitzahl / Informationsgewinn ist asymmetrisch bezüglich P↔P´
| | mittlere Bitzahl / Informationsgewinn ist asymmetrisch bezüglich P↔P´ |
| # es gilt: <math>K\left( P,P\acute{\ } \right)\ge 0</math>
| | es gilt: <math>K\left( P,P\acute{\ } \right)\ge 0</math> wegen |
| # wegen
| |
| :<math>\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}\ge \sum\limits_{i}^{{}}{{}}{{P}_{i}}\left( 1-\frac{{{P}_{i}}\acute{\ }}{{{P}_{i}}} \right)=\sum\limits_{i}^{{}}{{}}{{P}_{i}}-\sum\limits_{i}^{{}}{{}}{{P}_{i}}\acute{\ }=1-1=0</math> | | :<math>\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}\ge \sum\limits_{i}^{{}}{{}}{{P}_{i}}\left( 1-\frac{{{P}_{i}}\acute{\ }}{{{P}_{i}}} \right)=\sum\limits_{i}^{{}}{{}}{{P}_{i}}-\sum\limits_{i}^{{}}{{}}{{P}_{i}}\acute{\ }=1-1=0</math> |
|
| |
|
Zeile 407: |
Zeile 399: |
| \end{align}</math> | | \end{align}</math> |
|
| |
|
| # <math>{{P}_{i}}\acute{\ }=0</math>
| | <math>{{P}_{i}}\acute{\ }=0</math> |
| # ist auszuschließen, damit <math>K\left( P,P\acute{\ } \right)<\infty </math>
| | ist auszuschließen, damit <math>K\left( P,P\acute{\ } \right)<\infty </math> |
| #
| | |
| # Für <math>{{P}_{i}}\acute{\ }=\frac{1}{N}</math>
| | Für <math>{{P}_{i}}\acute{\ }=\frac{1}{N}</math> |
| # (Gleichverteilung)
| | (Gleichverteilung) |
| :<math>\begin{align} | | :<math>\begin{align} |
|
| |
|
Thermodynamikvorlesung von Prof. Dr. E. Schöll, PhD
|
Der Artikel Informationsmaße basiert auf der Vorlesungsmitschrift von Franz- Josef Schmitt des 1.Kapitels (Abschnitt 2) der Thermodynamikvorlesung von Prof. Dr. E. Schöll, PhD.
|
Die Informationstheorie (Shannon, Wiener) entstand im 2. Weltkrieg im Zusammenhang mit der Entschlüsselung codierter Nachrichten!
Definition:
Ein Maß
auf einer Algebra A´ ist eine Abbildung
mit den Eigenschaften
für disjunkte Ereignisse Ai, also
Nebenbemerkung: Eine
- Algebra A´ ist eine Algebra A´ mit der Eigenschaft, dass abzählbar viele
Also: Die Vereinigung der Ereignisse ist Element der Algebra!
Im Folgenden sei unsere Algebra A´ stets eine Sigma- Algebra!
Beispiel eines Maßes: Wahrscheinlichkeit P
Speziell:
Idee des Informationsmaßes:
Vergleich verschiedener Wahrscheinlichkeitsverteilungen über einer Ereignisalgebra A´
Frage: Welche von 2 Verteilungen enthält mehr Information, bzw. Kenntnis darüber, welches Ereignis eintreten wird ?
Mathematische Grundbegriffe: Reed/ Simon: Methods of Modern Math. Physics, Vol. I: Functional Analysis!
Beispiel:
Zonk- Problem:
Hauptgewinn ist hinter einer von 3 Türen versteckt!
- Verteilung: Alle drei Türen zu je 1/3:
Als Gleichverteilung → minimale Kenntnis
- Verteilung:
scharfe Verteilung → maximale Kenntnis / Sicherheit
Bitzahl:
Ausgangspunkt: diskrete Ereignisalgebra:
Frage: Wie lange muss eine Nachricht sein, die einem Beobachter mitteilt, dass ein Ereignis eingetreten ist ??
Länge der Nachricht = Maß für die fehlende Kenntnis des Beobachters
Beispiel:
Auswahl eines Ereignisses aus
falls der Beobachter keine Vorkenntnis hat.
- einafche Alternative
= kleinste Informationseinheit
= 1 bit (binary digit)
Nachricht: 0 oder 1
- A´ sei menge mit
- Elementen:
n Alternativentscheidungen notwendig:
z.B. 0011 → insgesamt n Stellen in Binärdarstellung nötig!
Länge der Nachricht:
(nötige Bitzahl)
Informationsmaß der Nachricht:
Bitzahl!
Also:
falls keine Vorkenntnis vorhanden ist!
Verallgemeinerung auf Wahrscheinlichkeitsverteilungen
Falls der Beobachter die
kennt, muss nur die fehlende Information mitgeteilt werden: Also die Bitzahl
.
Postulate für die Konstruktion von
:
- sei eine universelle Funktion, hängt von A also nur über P(A) ab!
- Seien
- und
- 2 verschiedene (disjunkte) sample sets, z.B. 2 Subsysteme eines zusammengesetzten Systems: So gilt:
Für 2 völlig unkorrelierte Subsysteme eines zusammengesetzten Systems gilt:
b ist additiv, also:
wobei nach Definition der Unkorreliertheit (stochastische Unabhängigkeit) gilt:
dabei ist
das direkte Produkt der beiden Zufallsvariablen, gegeben durch das Ereignistupel
.
3) b(P)=0 für P=1, also für das sichere Ereignis
also im Falle von Gleichverteilung, welches maximale Unbestimmtheit darstellt!
4)
ist stetig und wohldefiniert für
Wegen der Additivität macht es Sinn:
zu definieren. Es muss f noch bestimmt werden!
Wegen 1) und 2) folgt:
Also: die Funktion sollte linear in log P sein!
Bemerkung:
Für 2 unkorrelierte Systeme ist die Länge der Nachricht = Informationsmaß bei maximaler Unbestimmtheit additiv.
Dies motiviert Postulat 2)
Aus 3) folgt:
Konvention:
Einheit für ein bit:
"bin"
Informationsmaß für die Nachricht, dass Ai eingetreten ist,
falls
bekannt ist!
Informationsmaß einer Wahrscheinlichkeitsverteilung
Übermittlung vieler Nachrichten:
tritt mit relativer Häufigkeit
auf!
mittlere benötigte (= da fehlende!) Information pro Ereignis:
somit:
Definition: Shannon-Information einer Verteilung :
|
I ist Funktional der Verteilung
b ist Funktion von Pi b(Pi)
Es gilt stets
Maximum:
für
Also maximal für scharfe Verteilung mit sicherem Ereignis
Minimum: Variation der
um
unter der Nebenbedingung
wegen Normierung:
Somit:
Addition der Nebenbedingung
mit dem Lagrange- Multiplikator :
unabhängige Variation
Normierung , also Gleichverteilung
Übung: Man vergleiche I(P) für verschiedene Verteilungen
Kontinuierliche Ereignismenge
- Zelleneinteilung des
- in Zellen i mit Volumen
Wahrscheinlichkeit für ein Ereignis in Zelle i:
für eine feste Zellengröße.
Damit kann dieser Term weggelassen werden und wir gewinnen:
Bemerkungen
- Shannon- Informationsmaß misst die Kenntnis bezüglich der Frage: Welches Ereignis tritt ein ?
keine Unterscheidung, wi die verteilung zustande kommt, z.B. bei Gleichverteilung: genaue Beobachtung ODER vorurteilsfreie Schätzung bei gänzlich fehlender Kenntnis
(Laplacsches Prinzip vom unzureichenden Grund)
2) Definition : Statistisches Informationsmaß des NICHTWISSENS: (der fehlenden Information):
k geeignete Einheit
Interpretation in der Thermodynamik als Entropie
- verallgeminerte Informationsmaße (Renyi)
wird gleich dem Shannon- Informationsmaß für
Informationsgewinn
Maß für die Zusatzinformationen einer Wahrscheinlichkeitsverteilung
im Vergleich zu einer Referenzverteilung
über derselben Ereignismenge:
Dies ist zu verstehen als die notwendige Bitzahl, um Pi´ in Pi zu verwandeln, also die Information, die als Nachricht hierfür gegeben werden muss :
Mittlere Bitzahl (mit der korrigierten Wahrscheinlichkeitsverteilung gewichtet):
:
Informationsgewinn → Kullback Information!
|
Bemerkungen
mittlere Bitzahl / Informationsgewinn ist asymmetrisch bezüglich P↔P´
es gilt: wegen
es gilt:
ist auszuschließen, damit
Für
(Gleichverteilung)
bei Gleichverteilung!
5) Minimum von K:
Variation der
um
unter Nebenbedingung
Wegen Normierung:
- ist konvexe Funktion von P, da
somit ist dann auch
konvex (Informationsgewinn)
Kontinuierliche Ereignismengen
- Zelleneinteilung des
- in Zellen i mit Volumen
Wahrscheinlichkeit für ein Ereignis in Zelle i:
invariant gegen die Trafo
Während
nicht invariant ist!
Bemerkung:
Interpretation von
in der Thermodynamik als Entropieproduktion und von
als Exergie (availability)