課程描述INTRODUCTION
自然語(yu)言處理(li)(簡(jian)稱 NLP)是計算(suan)機(ji)(ji)科(ke)學和(he)人(ren)工智能研究的(de)(de)一個重要方向(xiang),研究計算(suan)機(ji)(ji)和(he)理(li)解(jie)和(he)運用(yong)(yong)人(ren)類語(yu)言進行交互的(de)(de)問題(ti),它是集語(yu)言學、機(ji)(ji)器學習、統計學、大數據于(yu)(yu)一體(ti)的(de)(de)綜合學科(ke)。 本(ben)課程主要介(jie)紹(shao)了NLP中(zhong)的(de)(de)常用(yong)(yong)知識點(dian):分(fen)詞、詞法(fa)分(fen)析、句法(fa)分(fen)析、向(xiang)量化方法(fa)、經典的(de)(de)NLP機(ji)(ji)器學習算(suan)法(fa),還(huan)重點(dian)介(jie)紹(shao)了NLP中(zhong)最(zui)近兩年來基于(yu)(yu)大規模語(yu)料預訓練的(de)(de)詞嵌入模型及應用(yong)(yong)。同時本(ben)課程偏重于(yu)(yu)實戰,不僅系統地介(jie)紹(shao)了 NLP的(de)(de)知識點(dian),還(huan)講解(jie)如何實際應用(yong)(yong)和(he)開發,每章節都有相應的(de)(de)實戰代碼。
日程安排SCHEDULE
課(ke)程(cheng)大綱Syllabus
NLP實戰
第一天:傳統的NLP
一、NLP基礎知識
1、自然語言處理簡介
2、中文NLP的主要任務
3、常見的NLP系統
4、NLP的研究機構與資源
二、中文分詞
1、基于字符串匹配的分詞
2、統計分詞法與分詞中的消歧
3、命名實體識別
4、常用分詞工具:JIEBA
三、文本的相似性
1、VSM
2、TF-IDF
3、初步情感分析
四、隱馬爾科夫模型
1、形式化定義
2、三個問題
3、評估問題與向前向后算法
4、解碼問題:維特比算法
5、學習問題:Baum-Welch算法
五、條件隨機場
1、*熵原理
2、無向圖模型
3、*團上的勢函數
4、工(gong)具(ju):CRF++
第二天:從傳統到現代
一、從LSA到LDA
1、LSA與SVD分解
2、pLSA
3、LDA
二、神經網絡語言模型
1、維數的詛咒
2、n-gram語言模型
3、NNLM的具體實現
4、改進的思路
三、word2vec
1、one-hot與Distributed
2、CBOW
3、skip-gram
4、Hierachical Softmax
5、Negative Sampling
四、循環神經網絡(RNN)
1、RNN的基礎架構
2、RNN的示例
3、LSTM
4、GRU
第三天:預訓練模型之一(變形金剛、芝麻街、獨角獸及其他)
一、GloVe
1、與word2vec的區別
2、統計共現矩陣
3、用GloVe訓練詞向量
二、Transformer
1、所有你需要的僅僅是“注意力”
2、Transformer中的block
3、自注意力與多頭注意力
4、位置編碼(為什么可以拋棄RNN)
三、三大特征抽取器的比較
1、CNN、RNN與Transformer的比較
2、融合各種模型
四、Elmo
1、雙向語言模型
2、工作原理
3、Elmo的應用場景
五、GPT
1、“一定會有人用它干壞事”
2、GPT的內部架構
3、Transformer的演示
4、自注意力機制的改進
5、GPT的應用場景
第四天:預訓練模型之二(站上BERT的肩頭)
一、BERT的前世今生
1、之前介紹的模型回顧
2、現代NLP的*應用場景
3、條條大路通BERT
二、BERT詳解
1、原理與方法
2、BERT的應用場景
3、BERT源碼簡介
三、站在BERT肩膀上的新秀們
1、ERNIE
2、XLnet
NLP實戰
轉載://citymember.cn/gkk_detail/244789.html
已開課時(shi)間(jian)Have start time
- 葉梓
人工智能內訓
- 電信戰新業務趨勢 盧森煌
- 國藥《運用Al工具提升管理 盧森(sen)煌
- AI能力訓練與實戰應用 盧森煌
- AI虛擬數字人視頻制作:打 叢興飛
- 電信大模型+數字人+AI賦 盧森煌
- AI時代步伐,AI發展趨勢 盧(lu)森煌
- ChatGPT九劍-爆款辦 叢興(xing)飛
- AI在銀行業應用場景 董(dong)彥彩
- AI時代下中層管理者的7項 叢興(xing)飛
- 服飾內訓AI輔助設計 盧森煌
- 《探索AI:人工智能技術的 黃光(guang)偉
- ChatGPT在營銷領域的 叢興(xing)飛