- rationales:基本原理
- discourse:语篇
- anticlimax: 虎头蛇尾
- prevail: 流行
- hedging: 模糊的
- bjectivity: 客观的
1 Overview
1-1 Register
register 语域:写作、演讲风格,代表了语言正式的程度
5 Registers
- Static (frozen) 套话
- Formal (regulated)
- Consultative (professional/ academic) 商议的
- Casual (group)
- Personal (intimate)
1-2 Title
S.C.I:
- specific
- concise
- informative
HOW:
- Choose a topic: interesting
- Narrow down: specific
- Paraphrase: noun phrase
1-3 Nominalization 名词化
Why
- increase information density and facilitate efficiency and accuracy of communication.
- express abstract concepts (e.g., revolution, possibility) 描述抽象概念
- hide the agent behind an action
- improve flow of writing , maintain connections between ideas
- make writing more “written” and professional
How:
- a simple sentence
- nominalized subject
- second verb
- finisher idea
1-4 Personal Pronouns
并非完全不能用第一人称
Avoid first and second person pronouns to be impersonal and scientific
Use gender-fair language
- Use "he or she" or "a person" instead of "he"
1-5 Word Choice and Sentence Variety
1-5-1 Word choice
Abstract and concrete words
- Abstract: loyal, love
- Concrete: battle, horse
Generral and specific words
- general: tree
- specific: southern red oak
Denotation and connotation
指示词(客观)和内涵词(带感情色彩的词)
denotation | connotation |
---|---|
primary or literal meaning | secondary or implied meanings |
exact or surface | baggage or associations |
tip of iceberg | impart the most meaning |
e.g. "house" | e.g. "home" |
Figurative speech
生动性
employs figures of speech
- simile,明喻
- metaphor,隐喻
- personification,拟人
Choose appropriate vocabulary
- Avoid using unfamiliar synonyms 避免使用生僻的同义词,不要装逼
- Avoid slang 避免俚语
- Avoid wordiness 避免冗长
1-5-2 Sentence variety
四种基础句式:
- 简单句
- 并列句
- 复合句
- 并列复合句
2 Literature Review
- Information prominent citation:作者待在括号里
- Author prominent citation:作者是主语
- Weak author prominent citation:authors 是主语,一群作者待在括号里
2-1 Reviewing Literature
A literature review is a careful examination of a body of literature pointing toward the answer to your research question.
Include a critical analysis of various opinions from credible sources
2-2 Writing Literature Review
简单文献综述模型:
- 研究兴趣
- 研究话题
- 文献综述
- 研究论文
复杂文献综述模型:在简单模型的基础上增加
- 研究问题
- 研究项目
顺序:
- Chronological(时间) - Trace the development of the topic over time
- Thematic(主题) - Address different aspects of the topic in subsections
- Methodological(方法) - Compare the results & conclusions from different approaches
- Theoretical(理论) - Discuss various theories, models, and definitions of key concepts.
技巧:
- introduction to topic
- support from the literature
- mini summary
- introduction to next topic.
2-3 Avoiding Plagiarism(剽窃)
方法:
- Quoting(引用)
- Paraphrasing(转写)
- Summarizing(概括)
2-4 Reporting Verbs
Function and strength | Example verbs |
---|---|
NEUTRAL: verbs used to say what the writer describes in factual terms, demonstrates, refers to, and discusses, and verbs used to explain his/her methodology. | describe, show, reveal, study, demonstrate, note, point out, indicate, report, observe, assume, take into consideration, examine, go on to say that, state, believe (unless this is a strong belief), mention, etc. |
TENTATIVE: verbs used to say what the writer suggests or speculates on (without being absolutely certain). | suggest, speculate, intimate, hypothesize, moot, imply, propose, recommend, posit the view that, question the view that, postulate, etc. |
STRONG: verbs used to say what the writer makes strong arguments and claims for. | argue, claim, emphasize, contend, maintain, assert, theorize, support the view that, deny, negate, refute, reject, challenge, strongly believe that, counter the view/argument that, etc. |
2-5 Tenses in Literature review
常用一般现在时、现在完成时
一般现在时:陈述事实或者真理的东西
只有在以下情况可以用一般过去时:
- 主句出现年份、时间(不是括号)
- 提到废弃研究
3 Methods and Results
“限制条件”预防了数据失效
3-1 The Structure of the Method Section
==Different titles of the method section==
- Materials and Methods
- Theory and Methods
- Theoretical Framework and Methods
The major elements in the method section
- The method section
- Methodology
- The rationales
- The fundamental reasons or principles of doing things
- Steps
- Materials
避免抄袭:
- 感谢作者
- 熟悉实验设计和实施
- 好好引用
3-2 The Structure of the Results Section
Major elements
- The statement showing where the results can be found
- The statement presenting the most important findings
- The statement commenting on the results
The order of the results
- Research questions
- Research methods
The language focuses
- Sequential markers
- Graphic descriptions
- Comparison and contrast
3-3 Sequential Markers
Importance of sequential markers
- Building up connections between ideas
- Ensuring that sentences and paragraphs flow together smoothly
3-4 Graphic Description
Description of Graphs
- Introduce the graphic information briefly and indicate the main trend. Normally it includes the place, time, content and purpose of the graph;
- Describe the relevant and most important or signi ficant data and make some comparison if necessary;
- Summarize the data/trends
Expressions for highlighting significant data in a table/chart
- some adjectives such as “apparent”, “clear”, “interesting”, “obvious”, “revealing” and “significant”
3-5 Comparison and Contrast
- 比较:相同点
- 对比:不同点
Two major ways of organization:
- Block comparison or block contrast(分块对比)
- To examine one thing thoroughly and then examine the other
- Alternating comparison or alternating contrast(交替对比)
- To examine two things at the same time, discussing them point by point
Tips for making comparison or contrast
- Not all the information has to be compared or contrasted with each other.
- It is not necessary to lay equal emphasis on every change.
- The comparison/contrast should be supported by concrete and relevant facts or data.
4 Discussion & Conclusion
4-1 Structure of Discussion Section
7 elements the Discussion section typically contains:
- An overview ...
- A consideration ...
- Implications ...
- A careful examination ...
- Limitations ...
- Recommendations ...
- Implications ...
4-1-2 Strategies and steps to structure the Discussion
How to begin the Discussion
- Remind readers
- Refer back to the questions
- ==Refer back to papers==
- Briefly restate ... from your Results
How to compare my work with those of others
4-2 Structure of Conclusion Section
Key elements of Conclusions section:
- a very brief revisit of the most important findings ...
- a final judgment on the importance and significance of those findings ...
- an indication of the limitations ...
- suggestions for ...
- recommendations for ...
Typical issues in structuring the Conclusion
- Redundancy: repetition of
- Raising a Totally New Point: introducing less ...
- Overstatement (夸大): making immoderate...
- Anticlimax(虎头蛇尾):failure to ...
Discussion sections which also have a Conclusion may end:
- Tell your readers ... But you must ... If you repeated
- Suggest ways that
- Say if and / or why you ignored
- Admit ...
- Reiterate your reasons for ...
4-3 Language Focus 1: Cause and Effect
- Identifying causes and effects
- Drafting thesis statements for causes or effects
- Tips on planning causes and effects
- Distinguish direct and indirect causes and effects.
- Group different causes and effects
- Avoid mistaking coincidence (two unrelated things happening together) for cause or effect
- Avoid oversimplification
- 因为许多问题非常复杂
4-4 Language Focus 2: Paraphrasing
Why
- Plagiarism detection system
- A case of unintentional plagiarism
How
- Lexical(词汇)
- 同义词
- 改词性
- Syntactic(句法)
- 双重否定
- 主语换位
- 主被转换
- 语序转换
- Combined
4-5 Language Focus 3: Strong Restatement of the Research Objective
- Two features of a strong thesis statement
- It makes a claim that requires ...
- It makes a claim that offers ...
- Five kinds of weak thesis statements
- Statements that make no claim
- Statements that are obviously true or a statement of fact
- Statements that restate conventional wisdom
- Statements that offer personal conviction as the basis for the claim
- Statements that make an overly broad claim
5 Publication
5-1 Abstract
Essential elements:
- the background
- the problem
- the methods
- the results
- the implications
Action | Tense |
---|---|
Giving background details | 一般现在时 |
Describing the research activity | 一般过去时 或 现在完成时 |
Describing the methods | 一般过去时(主动或被动) |
Reporting results | 一般过去时 |
Stating conclusions | 一般现在时 |
- 背景/目标:一般现在时
- 过程/方法:一般过去时
- 结果
The Types of abstracts
- Informative abstract
- Structured abstract
- 分段,每段开头为粗体的 Aim, Methods, Results, Research limitations/implications 或 Conclusion
5-2 Keywords
Definition of keywords:
- standout within the Abstract
- important words in the abstract
- emphasize the key information for readers
Purpose of keywords:
- increase the probability that a paper will be read and retrieved
- potentially improve citation counts and journal impacts
- know what words reflect the key information of the paper
- read more carefully when meeting these words in the paper
Categories:
- Discipline
- Topic
- Location
- Methods
- Data source
Number of keywords
- can’t be too few or many
- 3~5 in journals
- trade-off between the keywords to meet the limitation requirements for keywords
- choose the keywords from recent or often-cited titles close to their contribution
5-3 Reference
- IEEE:
[编号]. 作者名缩写. 作者姓, “文章题目,” 斜体期刊名称, 城市, 洲, 国家, 月日, 年, 页码
- MLA:
作者姓, 作者名. “文章题目.” 斜体期刊名称, vol. 期刊号, no. 发行号, 发行年份, pp. 页码
Functions
- used to avoid plagiarism
- tell editors and readers what sources have been cited in the paper
- help readers to use the materials to refer to when they write papers
Standard of a good reference:
- Authoritative
- Up-to-date
- Journal-targeted
5-4 Acknowledgement
Two main types of acknowledgements
- One is in a paper, and expresses the thanks to the organizations or projects or funds.
- The other is in a dissertation(大论文) as mentioned in the first part.
5 Submitting: writing the journal submission cover letter
Why a convincing cover letter?
- Highlighting the merit and significance
- Interesting the editor
What is included in the cover letter ?
- Follow the author guide.
- include essential information
- claim the originality of the paper
What should be avoided in the cover letter?
- Don't use too much jargon and acronyms.
- Don’t exaggerate.
- Don't make it lengthy.
- Don't try to be entertaining.
20 分钟做完客观题
-
empty introductory phrases:空的介绍性短语,客观
-
hedging language:模糊语,客观,避免过于绝对
-
trivial:琐碎的
-
current study
-
this study set out to tackle ...
-
The project undertaken
-
aimed to
-
show our gratitude
-
manuscript:稿子
-
Please find the attached manuscript
-
subject to:受...影响,屈服于
-
bring about:引起
-
syntax:句法
-
plunge:骤降
-
prevalent:普遍的
-
By contrast
-
proportion:比例
-
expenditure:开支
-
bead:珠子
-
reaffirm:重申
-
diffuse
-
quantitative/qualitative analysis
-
graduate student:研究生
Basic Research or otherwise called as pure or fundamental research, is one that focuses on advancing scientific knowledge for the complete understanding of a topic or certain natural phenomenon
基础研究是扩展科学知识
注意事项
改写句子不一定就是被动句,也可以加名词让句子复杂化
用 including 而不是 etc.
少用否定:not much(选择题里看见就排除)
句子不要太短
选项多于空的要考虑多选题
highlight adj.:不是结论本身的性质的形容词,只是强调、突出
有疑问的选项就尝试带进去理解,说不定是整个句子理解错了
conclusion 不能引用了
作文素材
形容词
- considerable:可观的
- numerous
- uncertain
- principal:主要的
动词
- obtain
- fluctuate:起伏
- encounter
- concur with:与...一致认为
- perform
- accord with:与... 一致
名词
-
consequence
-
administer/complete questionnaire
易错
名词化
- increase
- eliminate
- specificity
- specialization
- speciality
- sufficiency
- inequality
课程内容和要求
- 教材:《信息论与编码》,参考书:《信息论——基础理论与应用》
- 开卷考试,卷面占总成绩 60%,可以带计算器
简答题就简答,不要太多
信息度量和三大定理
主要计算题:信源编码和信道编码
的最大值就是信道容量
平均功率
平均交流功率就是方差,就是自相关函数的峰值
熵和信道容量要写单位
导数和积分表
- 给定方差情况下,高斯信源的信息率失真函数最大,即最难压缩;
- 给定方差情况下,噪声服从高斯分布时的信道容量最小
设函数求导比大小
高斯:
切比雪夫不等式:
第二章
Jensen 不等式(凹函数定义):
消息中平均每个符号携带的信息量有别于离散平均无记忆信源平均每个符号携带的信息量,后者是信息熵
若信源熵居然大于等概分布的信源熵,则一定是 信源空间不满足概率空间的完备集,譬如概率之和不为1
- bit
- bit/符号
- K 重扩展信源的熵:
- 平均符号熵:
- 互信息量:,没有负号!
- 平均互信息量 :
第三章
联合熵与条件熵的关系:
- 信源的冗余度:
第四章
平均码长是加权的,且 K 重扩展的平均码长单位为 码元/K个符号,往往要再除以 K
:乘公比错位相减
单义可译码:
- 等长码,且各消息对应码字不同
- 变长码,且不能用不同的多个码字拼出相同的一串序列,譬如
- 也可以直接算单义可译码和即时码的必要条件: , 为各码长,D 为符号种数
- 满足 Kraft 不等式只是表明这种码长分布可以构造单义可译码和即时码
- 即时码仅是单义可译码的一种排布,没有更严格的要求
最佳编码:具有最短的代码组平均长度或编码效率接近于 1 的信源编码
- 二元霍夫曼编码
:N 个信源符号的平均编码符号长度
- 编码效率:
先试扩展倍数小的,不够再加
第五章
信道矩阵:(给出信道特性)
对称离散信道: 信道矩阵的所有行由相同元素组成,所有列也由相同元素组成
二进制对称信道容量: bit/符号
离散准对称信道:
- 定义:信道矩阵可以按列分解为若干互不相交的子集,每个子集构成的矩阵都对应对称信道
- 设信源符号个数和信宿符号个数分别为 r 和 s, 当信源符号消息等概分布时,达到信道容量 C,且 比特/符号, 其中 是信道矩阵每一行的元素,n 表示子矩阵个数, 表示第k个子矩阵行元素之和,表示第k个子矩阵列元素之和。
译码准则:规定把 什么 y 判成 什么 x
- 先画香农线图
- 最小错误概率:对每个 ,取最大的 (其实也就是最大
- 列出发送码字到接收码字的转移概率矩阵
- 每列求和得到 ,每列除以它
- 每列取最大的
- 最大似然:对每个 ,取最大的
- 错误概率:先求正确概率
码率: 比特/码元,M 为码字种数
第六章
- 相对熵:
将随机变量 和 的变换关系记作 ,则有,其中 (是反的导数!f是Y到X!
若 ,则平均互信息量为 0
相对熵积分要复习一下
熵功率:达到指定熵所需的最小功率
6.3 需要仔细看(特别是6.3.2)
第八章
- :选一列取得最小失真度
- :取得最小失真度
- 二元离散信源的率失真函数:
- 等概离散信源的率失真函数:
- , 通常为 1
- 为失真矩阵中的非零元
是比特 / 信源符号, 是比特 / 秒
第十章
陪集首不能属于对应子群,且汉明重应最小
- 线性分组码的最小距离等于非零码字的最小重量
- 设C是 线性分组码,其纠错能力为t。如果用且只用不大于t个错误的全部错误图样作陪集首就能构成标准阵,那么就称这个码为完备码。
第十一章
有可能满足循环性但不是线性码!线性:两个码字相加也是码字
第一章 信息科学及其发展
1-1 通信系统的基本概念
信源:消息的提供者
- 可分为离散和连续
信道:传递消息的通道
- 可分为同轴电缆、光纤、波导等
- 也可分为 有/无干扰信道,离散/连续信道,单用户/多用户信道 等
信宿:信息的接收者
通信系统传输的是信号,信号是消息的载体,消息中的未知成分是信息
1-2 信息科学的有关概念
信息的特征:
- 未知性(不确定性)
- 由未知到知,等效为不确定性集合元素的减少
- 可以度量
1-3 信息理论的研究内容
- 狭义信息论:信息量、信道容量、熵、香农三定理
- 广义信息论:包含主观因素
微弱信号检测(最佳接收)
1-4 香农信息论梗概
围绕 有效性和可靠性
- 信息的度量
- 有效性:信源编码
- 香农第一、第三定理
- 可靠性:信道编码
- 香农第二定理
- 网络信息理论
- 保密信息理论
第二章 信息的度量
2-1 度量信息的基本思路
定义 2.1:若信源发出的消息是离散的、有限或无限可数的符号或数字,且一个符号代表一条完整的消息,则为单符号离散信源
定义 2.2: 若信源的输出是随机事件 X,其出现概率为 ,则它们所构成的集合称为 信源的概率空间 或 信源空间
信源空间的描述:
有
信源输出的事件的概率越小,信息量越大,即信息量是概率的减函数
自信息量 表示 发生所带来的信息量
定义 2.3 自信息量
信息量的单位:
- 以 2 为底:比特 bit
- 以 e 为底;奈特 nat
- 以 10 为底:哈特 Hart
自信息量和不确定度的关系
- 联系:
- 两者都是事件概率的函数,数值和量纲一致
- 区别:
- 不确定度是一个统计量,静态状态下也存在;
- 自信息量只有该随机事件发生时才给出,是动态的概念
2-2 信源熵和条件熵
定义 2.4 信源熵: 其中定义
- 信源熵只与信源符号概率分布有关,是一种先验熵
- 对给定概率分布的信源,信源熵是定值,代表信源每发出一个符号给出的平均信息量,其量纲为 信息量单位 / 信源符号
性质:
- 对称性:交换变量顺序不改变熵的值
- 确定性:若有一个事件必然发生,则熵为 0
- 非负性
- 可加性:对于统计独立的信源 X 和 Y,
- 强可加性对于任意两个信源 X 和 Y,(对数相乘,显然)
- 极值性:等概分布的信源的熵最大,
- 递增性:信源中一个符号划分为 m 个符号,且这 m 个符号的概率和等于原符号概率,则新信源的熵增加,
- 多元信源的熵可以表达为若干二元信源的熵的线性组合
- 严格上凸特性
Jensen 不等式(凹函数定义):
二进制熵函数 ,有
定义 2.5 条件自信息量:
条件概率仅由信道特性决定,看作信道给出的信息量。信源信宿对调也可得到条件自信息量
====
定义 2.6 条件熵:对于联合符号集 XY,在给定 Y 的条件下,用联合概率 对 X 集合的条件自信息量进行加权的统计平均值。
条件熵表示信道所给出的平均信息量
2-3 互信息量和平均互信息量
定义 2.7 互信息量:对两个离散随机事件集合 X 和 Y,事件 的出现给出关于事件 的信息量
- 信道没有干扰:
- 信道存在干扰: x的不确定度-收到y后对x尚存的不确定度=收到y对x所消除的不确定度 当 即互信息量 时,没有信息的流通
性质:
- 对称性:
- 值域为实数:可正可负可零,为负即后验概率小于先验概率,表示收到 y 后对信源是否发送 x 的正确概率小于 x 在信源集合中的概率
- 不大于其中任一事件的自信息量
- 互信息量描述信息流通特性的物理量,流通量的数值不可能大于被流通量的数值
条件互信息量 ,其中 即为条件互信息量
,助记:把 看作后缀,则简化为互信息量的公式
定义 2.8 平均互信息量:
- 为互信息量 的联合概率加权的统计平均值
- 在条件概率空间中的统计平均为
性质:
- 对称性:
- 与各种熵的关系:, 为共熵,或称联合熵
- 非负性,当且仅当 独立时取零
- 上界:
- 平均互信息量仅和信源概率分布 和信道传递概率 有关
- 给定信道传递概率 时, 是 的上凸函数
- 给定信源概率分布 时, 是 的下凸函数
最大平均互信息量:信道容量
平均互信息量的物理意义
- 平均互信息量为 信源熵减掉一个条件熵
- 表示以信源为参考,在接收端平均每收到一个符号所获得的信息量
- 条件熵 表示了干扰或噪声,又称疑义度
- 平均互信息量为 信源熵减掉一个条件熵
- 表示以信源为参考,在接收端平均每收到一个符号所获得的信息量
- 条件熵 唯一确定信道噪声和干扰所需的平均互信息量,又称噪声熵、散布度
信源空间题:TODO
- 先求各联合概率
- 再求
- 最后求题目要求的
定义 2.9 若对应于 x 有两种分布 ,则 称为这两种分布的相对熵,又称 熵差
定义 2.10 平均互信息量用相对熵定义:
平均条件互信息量:条件互信息量在概率空间 的统计平均
有:(去掉就超简单)
2-4 多维随机变量的熵
二维随机变量的共熵: (对数相乘)
多维随机变量的共熵,又称熵的链接准则:
熵的条件似乎可以直接“忽略”
多维信源的平均互信息量,又称信息链接准则:
定理 2.1 n 维随机变量的共熵不大于其各自熵之和,即 ,称为熵的界
当 同分布时,上界变为
常用:
定理 2.2 数据处理定理 若 (马氏链,有 ),则有数据处理不等式
当消息通过级联处理时,其输入和输出消息之间的平均互信息量,不会超过输入消息与中间消息之间的平均互信息量,也不会超过中间消息与输出消息之间平均互信息量;即 级联只会使得输入与输出间的平均互信息量变小
数据处理只是变换形态,不会创造新的信息
第三章 离散信源
3-1 离散信源的分类及其描述
根据时域:
- 单符号信源:信源每次只输出一个符号,可用随机变量描述信源输出的消息
- 符号序列信源:信源每次输出一个时域离散的符号序列,可用随机向量描述信源输出的消息
- 波形信源:信源每次输出时域连续的消息,可用随机过程描述信源输出的消息,采样后即为符号序列信源
根据时间和取值分布:
- 离散信源:在时间和取值上均离散,可用离散随机变量/随机向量/随机过程描述
- 连续信源:在时间或取值上连续,可用连续随机变量/随机向量/随机过程描述,采样后为信号、脉冲信号
根据平稳特性:
- 平稳:信源概率分布/密度不随时间改变
- 非平稳
根据记忆特性:
- 无记忆:信源在不同时刻发出的消息统计独立
- 有记忆(记忆长度有限的信源为马尔可夫信源)
信源编码:尽可能少的码元符号或尽可能低的数据速率来描述信源输出的消息
3-2 离散信源的熵
信息熵
定义 3.5 若信源发出 N 个不同符号 分别代表 N 种不同消息,各符号概率为 且相互统计独立,则为单符号离散无记忆信源
其信息熵为
定义 3.6 若信源发出的消息是由 K 个离散符号构成的符号序列,且各消息相互统计独立,则为发出符号序列消息的离散无记忆信源
K 重符号序列信源:每次发送都在 N 个符号里随机选 K 个(可重复)
定义 3.7 若单符号离散无记忆信源的信源空间为 ,对其 K 重扩展得到符号序列 ,则称扩展后的信源为离散无记忆信源 的 K 重扩展信源,扩展得到的符号序列记为
若 彼此统计独立,则定义 3.7 与 3.6 等价,也是发出符号序列消息的离散无记忆信源
发出符号序列消息的离散无记忆信源的熵为
定义 3.8 若信源发出的消息是由 K 个离散符号构成的符号序列,且各消息相互统计相关,则为发出符号序列消息的离散有记忆信源
有记忆信源的符号序列之间的关联程度可以用转移概率描述
符号间非独立(有关联)会使得信源输出的信息量减少
马尔可夫信源熵:是一般信源熵的特例
时间熵
时间熵 单位时间内发出的平均信息量 ,单位 b/s 或 bps
定义 3.9 若信源为具有 N 个单个符号消息的离散信源,第 i 个符号消息占用的时间为 秒,概率为 ,则称 的统计平均值为该信源符号消息的平均时间长度 或 平均长度,单位为秒/符号 秒/符号
若信源平均每秒发送 n 个符号,则 秒/符号
对于单符号离散无记忆信源:
K 重扩展的符号序列的时间熵
K 重扩展的离散无记忆信源的符号消息平均长度
仍有
若信源平均每秒发送 n 个 K 重符号序列消息,则 秒/符号, 有
若为有记忆信源,有 , 其时间熵小于无记忆信源的
消息之间的关联性体现在信源熵而非平均长度
3-3 信源的冗余度
3-3-1 最大信源熵
定理3.1 最大熵定理 设信源 X 中包含 M 个不同符号,其信源熵为 ,有 当且仅当 X 中各个符号的概率全相等时取等,此时得到最大熵 即熵的极值性,第二章证过
定理 3.2 两个集合 X、Y 的共熵 与这两个集合的信源熵 之间有 当且仅当两个集合相互独立时取等,此时取得最大熵
定理 3.3 对于初始信源 X 经过 K 重扩展的信源,若初始信源熵为 ,扩展后为 ,有 当且仅当 K 重符号序列消息的各个符号间相互独立时取等,此时取得最大熵
符号不等概或符号间有相关性都会损失信源熵
- 信源编码中要压缩冗余度来提高传输的有效性
- 信道编码中要注入冗余度来提高传输的可靠性
定义 3.10 设信源实际的熵为 H,该种信源可能的最大熵为 ,则信源的冗余度为 即信源在发出消息时无用信息量的百分比
3-4 信源符号序列分组定理
设离散无记忆信源的信源空间为
K 重扩展后,各符号序列为 ,这样的符号序列有 个。
当 K 足够大时,一个序列中任一符号 出现的次数都会趋近于 ,即扩展后很多序列的概率组成相同,是等概的
具有上述结构的序列称为 典型序列 ,其余的序列为 非典型序列
典型序列的自信息量也相等,为
自信息量的期望,即信息熵,为
当典型序列的概率之和很大时,就可以用典型序列来代表扩展信源(这正是数据压缩的本质)
信源符号序列分组定理说明上述分组是存在的,且可以估算其典型序列的数目
定理 3.4 信源符号序列分组定理 AEP(渐进均分特性) 设离散无记忆信源的信源符号为 ,各符号概率为 ,将该信源进行 K 重扩展得到 K 重符号序列 ,则任意给定 ,总有对应整数 ,使得 时,有 即信息熵与自信息量的差趋近于0
所谓渐近等分性:序列的越长,典型序列的总概率越接近于1,它的各个序列的出现概率越趋于相等
- 每个典型序列的概率
- 对于任意小的正数 ,当 K 足够大时,,可近似于
- 典型序列个数
- 对于任意小的正数 ,当 K 足够大时,,可近似于
- 典型序列占的比例
- 根据最大熵定理,一般有
- 随着 K 增大,典型序列占的比例逐渐趋于 0,典型序列出现概率高不等于典型序列种类多
表示 里的元素个数
信源符号序列分组定理表明,对于 K 重扩展信源,只考虑少量典型符号序列对信源特性带来的损失可以忽略,这给出了信源压缩编码的理论依据
3-5 平稳离散信源及其性质
平稳:概率分布不随时间变化
大部分实际信源在较短的一段时间都可以看作平稳信源
定义 3.10 若一个离散信源发出的符号序列 其出现概率与另一符号序列 的出现概率相等,则为平稳离散信源
- 改变其符号序列的起始位置,其概率和条件概率均不变,即平稳离散信源对应的随机过程是严平稳的
平稳离散信源的极限熵
有记忆离散信源每发一个符号所提供的平均信息量为
称 为平均符号熵, 为平稳离散有记忆信源的极限熵,又称熵率
平稳离散信源熵的性质
定理 3.5 若信源 X 是平稳离散信源,则有 即 是 X 中起始时刻随机变量 的熵与各阶条件熵之和。也即熵的链接准则。
定理 3.6 平稳离散信源的条件熵随 K 的增加是非递增的,即
特别的,由于平稳性,,故
推论 1:给定 K 时,平稳离散信源的条件熵小于等于平均符号熵,即
推论 2:平稳离散信源的平均符号熵随 K 的增加是非递增的,即
定理 3.7 极限熵的第二种形式 对于平稳离散信源,令 ,若 ,则 的极限值存在且有
- 一般离散平稳有记忆信源每发一个符号所提供的平均信息量等于极限熵
- 较难计算,但当 K 不是很大时,其平均符号熵 或条件熵 就非常接近于 ,可用作极限熵的近似值
第四章 离散信源的信源编码
4-1 信源编码的模型
信源编码
- 含义:将信源产生的消息变换为数字序列的过程
- 主要任务:把消息信号数字化为由信道基本符号构成的代码组(码字),并压缩冗余度,提高编码效率
编码是否会损失信源消息的信息量:
- 不损失信息量:无失真信源编码 -> 香农第一定理
- 会损失信息量:限失真信源编码 -> 香农第三定理
- 选择合适的信道基本符号(码元),使映射后的代码适应信道
- 用编码将信源发出的消息转换为代码组,即码字,其长度称为码长
- 编码应使消息集合与代码组集合中的元素一一对应
称上述一一映射的信源编码器为正规编码器,编出来的码为非奇异码
可以把信源和正规编码器合称等效信源,编码器的输入为初始信源
正规编码器的一一对应确保了编码不损失信息量,因此等效信源的熵必定等于初始信源的熵
研究信源编码时将信道编译码看作信道的一部分
- 若码字长度相等,称为等长码,反之为变长码
- 若信源符号与编码码字一一对应,称为非奇异码,反之为奇异码
- 若每个码元所占时间相同,称为同价码,反之为非同价码(例如莫尔斯电码)
- N 重扩展码:针对 N 重扩展信源编码得到的码字序列集合
- 若任意一串码字序列只能唯一的译为对应的信源符号序列,称为单义可译码,反之称为非单义可译码
- 不但要求信源符号与编码码字一一对应,即为非奇异码,还要求任意长的信源符号序列对应的码字序列一一对应,即任意 N 重扩展码均为非奇异码
- 非单义可译码会发生译码错误,导致失真
4-2 信息传输速率和编码效率
4-2-1 信息传输率
定义4.1 对于信源编码器的输出序列,其每个码元所包含的信息量称为 信源编码器的信息传输率,简称 码率 R
- R 的单位为 bit/码元
- 若每个码元时间为 t 秒,则可以定义信息传输速率
等长码:
- 单符号离散信源:设信源熵为 ,对其等长编码,每码字 b 个码元,则其信息传输率为
- K 重扩展信源:设信源熵为 ,对其等长编码,每码字 B 个码元,则其信息传输率为
变长码:
- 先求其代码组的平均长度
- 单符号离散信源:设信源有 N 个单符号消息 ,变长码编码器输出的代码组长度对应为 ,其出现概率分别为 ,则该变长码的平均长度为 ,信息传输率为 bit/码元
- K 重扩展信源:设信源有 N 个 K 重扩展的符号序列消息 ,变长码编码器输出的代码组长度对应为 ,其出现概率分别为 ,则该变长码的平均长度为 ,信息传输率为 bit/码元
4-2-2 编码效率
信道容量:信道的极限传输能力(平均互信息量的最大值)。根据平均互信息量的定义,在不失真传输的条件下,信道容量等于信源熵的最大值,
对于含有 D 个元素的信道基本符号集合,等效信源的最大熵等于 bit/码元,因此 bit/码元
定义 4.3 信源编码器输出代码组的信息传输率与信道容量之比,称为信源编码器的编码效率,即
- R = C 时,信源编码能充分利用信道
- R > C 时,信源编码输出信息的速率超过了信道传输能力,必然失真
- R < C 时,未充分利用信道
编码效率:
要提高编码效率可以减小代码组的平均长度
通常称具有最短的代码组平均长度或编码效率接近于 1 的信源编码为最佳信源编码,亦简称为最佳编码
要达到最佳编码,通常需遵循下面两个原则:
- 对信源中出现概率大的消息(或符号),尽可能用短的代码组(码字)来表示,简称短码;反之用长码
- 不使用间隔即可区分码字
- 要求单义可译性
原则一可以描述为:
定理4.1 设信源有 N 个消息分别为 ,出现概率分别为 ,信源编码器输出的 N 个代码组分别为 ,对应长度分别为 ,若信源消息的概率分布满足 ,而信源编码器输出的代码组长度满足 ,则该代码组的平均长度为最短。
最佳编码应满足 ,即可满足单义可译
4-3 单义可译定理
定义 4.4 对任何一个有限长度的信源消息序列,如果编码得到的码字序列不与其他任何信源消息序列所对应的码字序列相同,则称这样的码为单义可译码。
即时码:译码时不需要考察后续码元,一定为单义可译码
定理 4.2 设 是码 S 中的任一码字,码 S 为即时码的充要条件是:对于任意的 m<k ,任意码字 都不是码字 的前缀。
等长码都是即时码
即时码 ⊆ 单义可译码 ⊆ 非奇异码 ⊆ 所有码
定理 4.3 单义可译定理 即时码存在定理 设信源消息集合为 ,信道基本符号的种类为 D,码字集合为 ,对应的码长集合为 ,则存在即时码的充分必要条件是:D、N 和码长应满足如下不等式: 上式称为 Kraft 不等式。
任何一个结构为 的即时码一定满足 Kraft 不等式;而满足 Kraft 不等式的 又至少可构成一种结构为 的即时码
定理 4.4 平均码长界定定理 若一个离散无记忆信源 X,具有熵 ,对其编码用 D 种基本符号,则总可以找到一种无失真信源编码,构成单义可译码,使其平均码长满足
平均码长界定定理的物理意义:
- 下界证明是充要性证明,因此单义可译前提下平均码长的下界值为
- 也可以从信息传输率的角度理解下界,即 ,信息传输率不能超过信道容量,否则无法实现单义可译,从而造成译码错误
- 由于上界证明仅仅是充分性证明,因此平均码长大于定理中的上界也可能是单义可译码
- 给定信源空间 的离散信源,其熵 是确定值,如果信道基本符号数 D 也给定,则 也就定了。为此,需要改变信源本身统计特性,例如进行扩展
- 扩展后,可能使得每个消息的长度 ,这样平均长度也应减小
4-4 无失真信源编码定理
二进制编码和无记忆信源条件下香农第一定理:
- 对于二进制编码,D=2。根据平均码长界定定理有
- 类似地,对初始信源进行 K 重扩展,有
- 对于无记忆信源, 成立,因此
- 当 ,有
- 上式即是二进制编码和无记忆信源条件下香农第一定理的数学表示式
定理 4.5 香农第一定理 无失真信源编码定理 变长码信源编码定理: 设离散无记忆信源 X 包含 N 个符号 ,信源发出 K 重符号序列, 则此信源可发出 个不同的符号序列消息,其中第 j 个符号序列消息的出现概率为 , 其信源编码后所得的 D 进制代码组长度为 ,代码组的平均长度为 , 总可以找到一种编码构成单义可译码,使得 满足 当K趋于无限大时,
定理指出
- 要做到无失真的信源编码,每个信源符号平均所需要最少的 D 进制码元数,就是信源的熵值(熵定义中的log底数为D),或记为
- 扩展信源可以减少平均码元数,但有极限
- 此外,减少平均码元数是以增加编码的复杂性(存储复杂度)为代价的
- 从编码效率角度理解,不等式取到下界时,编码效率为 100%,可见无失真信源编码的实质就是对离散信源进行适当的变换,使变换后新的符号序列信源尽可能为等概率分布,以使新信源的每个码符号平均所含的信息量达到最大,进而使信息传输率R达到信道容量C,实现信源和信道理想的统计匹配
4-5-1 香农编码方法
- 先将信源消息的概率按 降序排列,然后计算 ,即 为前 i–1 个概率的累加
- 再把 变为二进制小数,取小数点后的 位数作为第 i 消息的码字,其中 满足
二进制小数:将小数部分一直乘 2,积的整数部分顺序取出
特点:
- 先得到码长,再得到码字
- 码字集合唯一
- 并非一定最优
4-5-2 费诺编码方法
又称子集分解法
- 将信源消息符号按其出现的概率大小依次排列
- 将依次排列的信源符号按概率值分为两大组,使两个组的概率之和接近相同,并对各组赋予一个二进制码元“0”和“1”
- 将每一大组的信源符号进一步再分成两个组,使分解后的两个组的概率之和接近于相同,并又赋予两个组一个二进制符号“0”和“1”
- 如此重复,直至每个组只剩下一个信源符号为止
特点:
- 先得到码字,再得到码长
- 码字集合唯一
4-5-3 霍夫曼编码
本科数字通信笔记第四页,这里使用 as low as possible 或者 as high as possible 都可以
特点:
-
码字集合不唯一
-
二元霍夫曼编码是最佳编码
-
r 元霍夫曼编码可能需要扩展原信源,使得霍夫曼最后一步的信源有 r 个符号,故需扩展到 个信源符号
4-5-4 Lempel-Ziv 编码
与本科数字通信所学不一样
1 | 2 | 3 | 4 | 5 | |
---|---|---|---|---|---|
子列 | a | b | aa | aab | aaba |
编码 | 0a | 0b | 1a | 3b | 4a |
未出现过的子列用 0 开头
特点:
- 独立于信源的统计特性,是一种变长到定长的编码方案
- 利用了已编码信息来进行当前的编码,是等长码,编码的过程就是建立码地址和将待编码消息序列分段的过程,所有的码段内容都是不同的
- 对于长的消息序列,压缩比较明显
- 地址会不断变长,可以用相对地址解决
- 将编码结果表示为3部分内容:<相对地址,可利用的已编码信息长度,本次编码新增加字符>,称之为编码包
- 可利用的只要是已经编码过的信息就行,不需要是一整个包什么的
- 第一部分:利用的已编码信息在当前信息之前多少 位,是按序列数的,不是按包
- 第二部分:利用的已编码信息长度
- 两个相当于是 数组首地址(相对) 和 数组长度
- 如果下一个要编码的刚好是上一个已编码符号 x 的 n次重复,则写为 <1,n x>
4-5-5 等长码的信源编码定理
设等长码的信源的消息符号集合为,进行 K 重扩展后,符号序列消息的总数为 ;设信道有 D 种基本符号,每个码字有 B 个码元,故最多有 种码字,要满足单义可译性,应满足 ,即 或
但实际可以只对典型序列编码,即 典型序列个数
定理 4.6 设 K 重扩展的符号序列消息集合中,对于任意小的 ,当 时,只要 K 足够大,译码错误概率 就可以任意小。若 ,则当 时, 可以任意地接近于 1
等长码的信源编码定理的物理意义: 或 时,更有效的信源编码存在
对于等长码,K需要非常大(上千)才能获得低译码错误概率和高编码效率
传输所造成的错误会产生所谓“扩展效应”,简称为译码的错误扩展。例如,传输过程1-bit的错误可能导致信宿端多个消息的译码错误。这需要信道编码来保证传输正确
第五章 离散信源及其信道编码
5-1 信道的分类及其描述
(1) 信道按输入/输出符号空间的性质来划分,根据幅度和时间上的取值是离散或连续,分为四类:
- 离散信道:输入和输出的随机序列取值均为离散的信道,也称为数字信道
- 连续信道:输入和输出的随机序列取值均为连续的信道
- 半离散或半连续信道:输入序列是离散型但相应输出序列是连续的信道,或者相反
- 波形信道:输入和输出都是时间上连续的随机信号,也称为模拟信道
(2)按信道的输入消息集合和输出消息集合的个数来划分:
- 两端信道:信道的输入消息集合只有一个X集合,同时信道的输出消息集合也只有一个Y集合,又称为单向单路信道
- 多端信道:信道的输入端和输出端中,至少有一端具有一个以上的消息集合,又称为多用户信道
(3) 信道按输入/输出信号间的关系是否确定来划分,
- 无扰信道:信道输入/输出之间是一种确定的关系,这是一种理想化的信道,信道上不存在噪声及干扰。可以作为衡量其他信道特性的参考
- 有扰信道:信道输入/输出之间是一种统计依存的关系,信道上存在干扰和(或)噪声。实际的通信信道几乎都是有扰信道
(4) 信道按其输入/输出之间关系的记忆性来划分,
- 无记忆信道:在某一时刻信道的输出消息仅与当时的信道输入消息有关,而与前面时刻的信道输入或输出消息无关。信道的统计特性可以用信道传输概率的集合{P(y|x)}来描述
- 有记忆信道:在任意时刻信道的输出消息不仅与当时的信道输入消息有关,还与以前时刻的信道输入和(或)输出消息有关。实际信道一般都是有记忆的
(5)信道按其统计特性来划分,
- 恒参信道:信道的统计特性不随时间变化,又称为平稳信道
- 变参信道:信道的统计特性随时间变化
5-2 无扰离散信道的传输特性
定义 5.1 单位时间内所传输的信息量,称为消息在信道中的信息传输速率,简称为信息率 R
- 量纲为比特/码元或比特/符号、比特/符号序列等时,用 R 表示
- 量纲为 bit/s 或 bps,用 表示
平均互信息量 代表收到 Y 后获得关于 X 的平均信息量,因此实质上就是量纲为比特/码元(或比特/符号、比特/符号序列等)的信息传输速率,即 bit/码元;如果改变其时间单位,则有 bit/s
- 无扰离散信道下信息传输速率等于信源熵,即 bit/码元; bit/s
信道容量: 消息在不失真传输的条件下,信道所允许的最大信息传输速率称为信道容量,即 bit/码元;当单位为bit/s(bps)时,C 变换为 bit/s
信道容量和信道中传输的消息数目 N 的关系: 对无扰信道,信道传输的信息量就是信源发出的信息量,根据最大信息熵定理,所有信源符合等概率的时候信源熵最大,因此信道容量 bit / 码元; bit / s
定义5.3 基本符号时间等长的信道称为均匀编码信道,这种等长的基本符号称为码元。
- 损失熵:
- 噪声熵:
无噪无损信道:输入与输出符号一对一
- 损失熵 和 噪声熵 均为 0,
- 信道容量 bit/码元
无噪有损信道:输入与输出符号多对一
- 损失熵 ,噪声熵 ,
- 信道容量 bit/码元
有噪无损信道:输入与输出符号一对多
- 损失熵 ,噪声熵 ,
- 信道容量 bit/码元
5-3 有扰离散信道的传输特性
信道矩阵:(给出信道特性)
为信道传输概率
对称离散信道: 信道矩阵的所有行由相同元素组成,所有列也由相同元素组成
强对称离散信道(均匀信道):信道矩阵为方阵
- 总错误概率为p,均匀分给r-1个输出符号
- 信道矩阵各列之和也等于1
二进制对称信道(BSC):其中为交叉传输概率
准对称离散信道
- 信道矩阵的列可以分解为若干互不相交的子集,每个子集构成的矩阵都对应对称信道
二进制删除信道:
5-3-4 有扰离散信道的信道容量
有扰离散信道的信道容量是指在不失真传输的条件下,信道所允许的最大信息传输速率(平均互信息量):
- 信道容量 C 是信道的最大传输能力,是信道自身的特性
- 能使平均互信息量达到信道容量C的信源称为匹配信源
- 是 和 的函数
- 只与具体信源有关; 只与信道特性有关,与具体信源无关,因此
几种特殊信道的信道容量
定理 5.1 对于信源符号个数和信宿符号个数分别为 r 和 s 的离散对称信道, 当信源符号消息等概分布时,达到信道容量 C ,且 比特/符号, 其中 是信道矩阵每一行的元素
二进制对称信道容量:
定理 5.2 对于信源符号个数和信宿符号个数分别为 r 和 s 的离散准对称信道, 当信源符号消息等概分布时,达到信道容量 C,且 比特/符号, 其中 是信道矩阵每一行的元素,n 表示子矩阵个数, 表示第k个子矩阵行元素之和,表示第k个子矩阵列元素之和。
二进制删除信道容量:
一般离散信道:
凸问题一定能用拉格朗日解,否则不一定
定义 表示接收到 之后获得关于 的信息量(某个符号与信宿之间的平均互信息量)
定理 5.2:输入概率分布达到信道容量的充要条件为
- 概率不为 0 的信源符号和 Y 的平均互信息量都等于信道容量
- 达到信道容量的最优输入分布不唯一
信道容量的通解
对信道矩阵每行列一个方程:
若信道矩阵为方阵且可逆, 则可以求出 ; 继续求出 C 和 : 最后根据 得到最优输入概率分布
通常为负
K 重扩展信源的信道
对于信源 的 重扩展信源 , 对应的 重扩展信宿 , 且 ,
- 当信道无记忆时, 即信道传输概率满足 ,则有
- 当信源无记忆时, 即满足 ,则有
- 当信源和信道都无记忆时,则有
- 当且仅当信源无记忆且各个 达到最佳概率分布时取等
- 对于时不变信道,即各个 经过相同信道时,
并联信道
串联信道
信道矩阵为各个子信道的信道矩阵的乘积
两个 BSC 串联后仍是 BSC
级联将使信道容量C下降,且随着 的增大变得非常明显
5-4 译码准则
定义 5.6 在一般的信息传输系统中,信宿收到的消息不一定与信源发出的消息相同, 而信宿需要知道此时信源发出的是哪一个信源消息, 故需要把信宿收到的消息 根据某种规则判决为对应于信源符号消息集合中的某一个, 例如 ,这个判决的过程称为接收译码,简称译码,译码时所用的规则称为译码准则。
- 任何译码准则所遵循的基本要求都是要使信宿得到的判决结果中错误最少
- 译码准则就是一种能满足 的函数关系,它使得译码结果中的错误概率达到最小
5-4-1 常用的译码准则
例:
最小错误概率准则 即 最大后验概率准则
对于所有的 i ,若 ,且 ,则
可以通过求所有的 ,对每个 取最大的后验概率,算出正确传输概率
也可以直接从信源的概率分布和条件概率来求采用最小错误概率准则时的接收错误概率:
最大似然译码准则
是信道传输概率,也称为最大似然函数
- 信源符号等概分布
- 只要选取 使得 最大,则 最大
- 此时错误概率为