Sinh học phân tử là khoa học nghiên cứu các hiện tượng sống ở mức độ phân tử. Phạm vi nghiên cứu của môn học này có phần trùng lặp với một số môn học khác trong sinh học đặc biệt là di truyền học và hóa sinh học. Sinh học phân tử chủ yếu tập trung nghiên cứu mối tương tác giữa các hệ thống cấu trúc khác nhau trong tế bào, bao gồm mối quan hệ qua lại giữa quá trình tổng hợp của DNA, RNA và protein và tìm hiểu cách thức điều hòa các mối tương tác này. Hiện nay, sinh học phân tử và sinh học tế bào được xem là nền tảng quan trọng của công nghệ sinh học. Nhờ phát triển các công cụ cơ bản của sinh học phân tử như các enzyme cắt hạn chế, DNA ligase, các vector tạo dòng, lai phân tử, kỹ thuật PCR... sinh học phân tử ngày càng đạt nhiều thành tựu ứng dụng quan trọng.
Trang 11
Genome
và sự hoạt động của gene
CHƯƠNG 1
Trang 22
Trang 31.1 Cấu trúc genome
n DNA mã hóa
n DNA không mã hóa
n RNA mã hóa (Coding RNA)
n RNA không mã hóa (Non-coding RNA)
n Gene giả (Pseudogene)
n Các cấu trúc lặp lại trong genome
n Bản chất phân tử của các yếu tố di truyền vận động: gene nhảy
n SNPs (đa hình nuleotide đơn)
n Lặp gene, cơ sở của tiến hóa
Trang 44
Where am I?
Trang 5Giải mã genome
5
Trang 6Genomics ?
n Genomics là một ngành trong di truyền học liên quan
đến việc nghiên cứu genome của sinh vật
n Nghiên cứu genome bao gồm việc xác định trình tự
genome của sinh vật và lập bản đồ gene
n Nghiên cứu genome cũng liên quan đến các hiện tượng:
ưu thế lai, tương tác át chế, tính đa hiệu của gene và
các tương tác giữa các gene cùng allele hoặc các gene khác nhau trong genome
Trang 77
Trang 8http://www.scfbio-iitd.res.in/tutorial/geneticorganization.html
Eukaryote genome
Trang 9Sự khác biệt về cấu trúc
genome ở tế bào prokaryote
và eukaryote
9
Trang 1010
So sánh cấu trúc genome prokaryote và
eukaryote
So sánh mật độ gen trên NST ở các sinh vật khác nhau (1 vùng DNA
genome có chiều dài 65 kb)
Số lượng các gen được mã hóa bên trong cùng một đơn
vị chiều dài DNA giảm dần khi mà tính phức tạp của sinh vật tăng lên
Watson (2004) Molecular biology of the gene
Trang 11DNA mã hóa (coding DNA)
11
Trang 1212
RNA mã hóa
1 gene nhiều mRNA
Trang 1313
Protein coding gene
n Allele: Trạng thái tồn tại khác nhau của 1 gene
n Locus: Vị trí tồn tại của một hoặc nhiều allele trên NST
n Allele trội, allele lặn: Sự tương tác về mức độ biểu hiện giữa các allele
Trang 1414
RNA không mã hóa (non-coding RNA)
Định nghĩa: Gene mã hóa cho các phân tử RNA ngoại trừ mRNA
n RNA vận chuyển (tRNA)
n RNA ribosome (rRNA)
n Small nucleolar RNA (snoRNA)
n Small nuclear RNA (snRNA)
n Micro RNA (miRNA)
n Small interfering RNA (siRNA)
n Piwi-interacting RNA (piRNA)
n Long non-coding RNA (long ncRNA)
Trang 15
Noncoding RNA
15
Trang 16RNA không mã hóa
Trang 1717
tRNA
• Ở Eukaryote, tRNAs được phiên
mã bởi RNA polymerase III
(pre-tRNA)
• Pre-tRNA của eukaryote được
cải biến ở trong nhân (cắt, loại bỏ
intron) tRNA prokaryote có khả
năng cải biến (self-splice)
Trang 18expression system) à cạn kiệt
tRNA à giảm hiệu quả biểu
hiện
n Xem xét hiện tượng codon
bias à lựa chọn dòng tế bào
chủ biểu hiện
n
Trang 1919
RNA ribosome (rRNA)
Prokaryote 70S 50S (5S; 23S) 30S (16S)
Eukaryote 80S 60S (5S; 5,8S; 28S) 40S (18S)
Trang 2020
Small nuclear RNA (snRNA)
• snRNA là một lớp của các phân tử RNA nhỏ tìm thấy ở trong nhân của eukaryote snRNA được phiên mã bởi RNA pol II
• snRNA liên quan đến quá trình loại bỏ intron khỏi các pre-mRNA (hn RNA), điều hòa phiên mã và duy trì các telomere
• Các snRNA thường kết hợp với các protein để tạo thành phức hợp snRNP (small nuclear ribonucleoprotein)
• Một nhóm lớn trong số các snRNA là snoRNA (small nuleolar)
Trang 2121
Loại bỏ intron khỏi tiền mRNA (pre-mRNA) bởi phức hợp
spliosome
Trang 24Kiểm soát hoạt động gene bởi miRNA
24
Trang 25Nguồn gốc miRNA
miRNP: Ribonucleoprotein complex
Trang 26• Phát hiện bởi nhóm nghiên cứu của David Baulcombe
(England) Công bố trên Science Tiêu đề: "A species of small
antisense RNA in posttranscriptional gene silencing in plants“
Trang 2727
Trang 2828
• SiRNA chỉ tác động đến duy
nhất gene quan tâm
• SiRNA không ảnh hưởng đến
hoạt động của các gene khác
ngoài gene đích
• Sàng lọc dựa vào thư viện
cDNA (dbEST)
Trang 2929
Piwi-interacting RNA (piRNA)
• piRNA được biểu hiện ở
tế bào động vật (kích
thước 26-31 nt)
• Nguồn gốc: chưa rõ
• piRNA tạo thành phức
hợp với protein piwi,
tham gia vào quá trình
epigenetic và làm câm
gene (khi gene chuẩn bị
dịch mã)
Trang 30điều hòa biểu hiện
gene (cơ chế chưa rõ)
Trang 3131
http://www.scfbio-iitd.res.in/tutorial/geneticorganization.html
Trang 3232
Gene giả (Pseudogene)
gene (relatives) nhưng mất đi khả năng mã hóa cho các protein hoặc không được biểu hiện
Trang 3333
Gene giả (Pseudogene)
n Có thể không có introns hoặc promoter (những bản copy của mRNA kết hợp vào NST)
n Hầu hết có các đặc điểm của gene như: promoter, CpG island và các vị trí phân cắt (intron junction) Nguyên nhân là do mất khả năng mã hóa protein (premature stop codons, đột biến
lệch khung frameshift, thiếu các yếu tố phiên mã)
n Đối với các non-coding RNA thì bị mất đi khả năng mã hóa
cho các RNA (ví dụ rRNA pseudogene)
Trang 3434
Đặc điểm của gene giả (Pseudogene)
n Có tính tương đồng (homology) do trình tự gần như giống với các gene đang hoạt động (so sánh trình tự alignment khoảng
từ 40 – 100%)
n Bị lỗi bởi một trong những giai đoạn (phiên mã, xử lý
pre-mRNA, dịch mã, cải biến sau dịch mã (folding))
n Phần lớn: stop codon, frameshift
n Các pseudogenes của các RNA thường rất dễ phát hiện bằng cách so sánh trình tự
Trang 3535
Gene giả (Pseudogene)̉
n Về mặt tiến hóa: Homology
n Cùng có tổ tiên chung với các gene đang hoạt động
n Có ý nghĩa trong việc phân tích nguồn gốc tiến hóa
Trang 3636
Nguồn gốc gene giả (Pseudogene)
1 Retrotransposed pseudogenes:
• Các yếu tố lặp lại chẳng hạn LINES ở người có vai trò trong việc phiên
mã ngược một phần của mRNA thành DNA rồi chèn vào NST
• Khi các gene giả được đưa vào genome, chúng thường chứa các poly A
và các intron đã bị loại bỏ (giống cầu trúc cDNA)
• Do có nguồn gốc từ các mRNA (trưởng thành) à thiếu các cấu trúc như thành phần upstream chính vì vậy chúng được coi là “những xác chết”
Trang 3737
Nguồn gốc gene giả (Pseudogene)
n Lặp gene: phổ biến, có vai trò quan trọng trong tiến hóa genome
n Gene lặp lại có thể bị đột biến, kết quả làm cho gene này bị bất hoạt
n Các gene lặp lại thường có đặc điểm giống nhau (kể cả các vùng
intron-exon, promoter và các đặc điểm khác)
n Một số gene giả được phát hiện thấy ở người và các động vật linh trưởng à giải thích cho mối quan hệ gần gũi trong quá trình tiến hóa
2 Non-processed hoặc duplicated pseudogenes
Trang 38Các gen giả pseudogene
Pink R C et al RNA 2011;17:792-798
Copyright © 2011 RNA Society
Trang 3939
Nguồn gốc gene giả (Pseudogene)
n Các dạng đột biến có thể làm dừng một gene khỏi phiên
mã hoặc dịch mã và một gene có thể không hoạt động chức năng hoặc bị bất hoạt nếu một đột biến như vậy
được giữ lại trong quần thể
n Khác với trường hợp thứ 2, gene được lặp lại sau khi nó
bị bất hoạt
Ví dụ:
n Gene mã hóa cho enzyme L-gulono-γ-lactone oxidase (GULO) Ở tất cả các động vật có vú GULO hỗ trở sinh tổng hợp Vitamin C Gene này tồn tại ở bộ linh trưởng nhưng ở trạng thái bất hoạt
3 Gene bị bất hoạt (Disabled gene)
Trang 4040
http://www.scfbio-iitd.res.in/tutorial/geneticorganization.html
Trang 41n Các trình tự lặp lại trải khắp genome (interspersed repeat)
n SINEs (Short Interspersed Nuclear Elements)
n LINEs (Long Interspersed Nuclear Elements)
Trang 43• Thuật ngữ “satellite DNA” chỉ mức độ lặp lại của những
đoạn DNA ngắn có xu hướng tạo ra các tần suất lặp lại khác nhau của các A, T, G, C
Trang 4444
Các trình tự lặp lại xen kẽ (tandem repeat)
• Minisatellite (còn gọi là varian number of tandem repeat, VNTR)
là một phần DNA chứa một loạt những đoạn trình tự ngắn (10-60 bp) Ở genome người có khoảng 1,000 vị trí như thế này
• Một số minisatellite chứa một lõi trình tự “GGGCAGGANG” hoặc
có xu hướng khác nhau với các base A, T, G, C
• Khác với microsatellite (còn gọi là short tandem repeat, STR) Các STR cũng là những trình tự lặp lại nhưng chúng thường có kích thước ngắn (2-13 nucleotide)
Trang 45lặp lại xen kẽ: TTAGGG TTAGGG TTAGGG
• Minisatellite có tính đa hình cao
• Phân tích đột biến trong quần thể
• Đánh giá mối liên hệ về mặt tiến hóa
• Marker di truyền
• Phân tích di truyền liên kết
Ứng dụng:
Minisatellite là các đoạn DNA có nhiều đơn vị lặp lại
dưới 25 bp, có chiều dài khoảng 20 kb
Trang 46Microsatellite thường dùng để chỉ DNA có đơn vị lặp lại ngắn, thường
là 4 bp hoặc ngắn hơn và có chiều dài thường nhỏ hơn 150 bp
Trang 47► Microsatellite thường trung tính và mang tính đồng trội Chúng được
sử dụng làm marker trong di truyền, xác định mối quan hệ huyết thống Ngoài ra được sử dụng trong các nghiên cứu về lặp gene hoặc đột
biến mất đoạn
► Ở cây lúa, các dạng SSR là (GA)n, (GT)n, (AT)n, (GGT)n
► Microsatellite là yếu tố liên quan đến các bệnh, đặc biệt là các bệnh suy giảm thần kinh và ung thư
47
Trang 48A number of DNA samples from specimens of Littorina plena amplified
using polymerase chain reaction with primers targeting a variable simple sequence repeat locus Samples have been run on a 5% polyacrylamide gel and visualized using silver staining
SSR analysis
Trang 4949
http://www.scfbio-iitd.res.in/tutorial/geneticorganization.html
Trang 50Transposon
► Lớp 2: Gồm các phân tử DNA di chuyển
trực tiếp từ vị trí này sang vị trí khác trong genome
RNA rồi chèn vào vị trí mới
50
Trang 52Lớp 1
Trang 53Miniature Inverted-repeat Transposable Elements (MITEs)
5' GGCCAGTCACAATGG ~400 CCATTGTGACTGGCC 3' 3' CCGGTCAGTGTTACC ~400 GGTAACACTGACCGG 5'
Có khoảng hơn 100,000 trình tự MITEs trong genome lúa đã được biết
MITEs tồn tại trong genome người, ếch, và một số loài thực vật
Trang 54Retrotransposon
54
Trang 55Retrotransposons
55
Trang 56► Phương thức lặp lại theo kiều “retrotransposons” thông qua trung gian RNA đã làm tăng số bản copy à dẫn đến tăng kích thước genome
► Retrotransposon có thể gây ra các đột biến bằng cách chèn vào bên cạnh hoặc bên trong các gene một đoạn DNA
► Hơn nữa, retrotransposon-gây ra các đột biến thường
tương đối ổn định, vì trình tự ở vị trí chèn được giữ lại bởi vì chúng chuyển thông quá cơ chế sao chép
Trang 5757
Các trình tự lặp lại trải khắp genome
(interspersed repeat)
► SINES (Short Interspersed Elements) là những trình tự
DNA ngắn (<500 bases) đại diện cho những phân tử RNA được phiên mã ngược được phiên mã từ RNA pol III thành tRNA, rRNA và các snRNA
► SINES không mã hóa cho reverse transcriptase protein và nhờ vào các yếu tố vận động khác để chuyển vị trí
► SINES phổ biến nhất là các trình tự Alu Ở người, có khoảng 1,500,000 bản copy, chiếm 11% genome
► Những nghiên cứu gần đây cho thấy cả SINES và LINES có
liên quan đến việc hình thành các gene mới, gây ra một
số bệnh và ung thư
Trang 5858
LINES
với lượng lớn ở genome eukaryote
► Được phiên mã thành RNA bằng promoter nằm bên trong LINE
► Các LINE mã hóa cho enzyme phiên mã ngược (reverse
transcriptase), ngoài ra còn mã hóa các endonuclease (RNase H)
► Enzyme phiên mã ngược có tính đặc hiệu với LINE RNA cao hơn các RNA khác
► Enzyme này tạo DNA từ LINE RNA sau đó xen vào genome ở một vị trí mới
► Các endonuclease giúp cho quá trình cắt và chèn DNA ở những vị trí nhất định
Trang 5959
LINEs
(AATAAA) và đuôi poly A
► Do LINEs di chuyển bằng cách copy chính bản thân (thay vì chỉ di chuyển giống như các transposon), chúng làm genome lớn lên
► Genome người chứa 500,000 LINEs (17%) Trong đó khoảng 7,000 đoạn copy đầy đủ và một lượng nhỏ có chiều dài ngắn có khả năng
retrotransposition
► LINE-1 retroposons ở người có khả năng phiên mã một cách chủ động và các LINE-1 RNA có chức năng tham gia vào quá trình hình thành cấu trúc chromatin
Trang 6060
Trang 61TRANSPOSON CỦA PROKARYOTE
61
Trang 62Single-nucleotide polymorphism SNPs
Là trình tự DNA biến động trong
quần thể, chỉ sự khác nhau giữa
các cá thể của loài sinh học hay
cặp NST
Những điểm khác biệt này được
giả thuyết là các dạng đột biến
trung tính tạo nên sự đa dạng
thể loài người Tuy nhiên, một
số điểm đa hình SNP có thể liên
quan đến khả năng mẫn cảm
với bệnh
Trang 6363
ü Khảo sát các biến thể đa hình số bản
sao (copy-number variants, CNVs) trên
toàn bộ hệ gene người từ hàng trăm
mẫu đối chiếu của 4 quần thể người
ü Thống kê khoảng 1500 vùng biến đổi
hàng trăm gene cấu trúc hoặc các vùng
chức năng khác
ü Kết quả: nguồn đa dạng di truyền của
loài người không chỉ dựa vào hàng triệu
điểm SNP mà còn cả ở biến dị thêm hay
Trang 64- So sánh từng mẫu với mẫu chuẩn và tìm kiếm các điểm
khác biệt một cách hệ thống của hơn 26,000 đoạn nhiễm sắc thể lớn mà tổng chiều dài đã chiếm gần như tất cả phần hệ
gene đã được xử lý trình tự hiện nay
- Việc kết hợp hai hướng tiếp cận này có thể cho phép dò tìm gần như tất cả các kiểu CNV
- Kết quả đã phát hiện 1447 CNV trong số 270 mẫu HapMap Chiều dài ước tính trung bình của các vùng chứa CNV trong mỗi hệ gene là vào khoảng 20 triệu cặp base
SNPs
Trang 65người bệnh có nhiều khả năng sẽ bị mất cân bằng về
lượng RNA và protein thích hợp do gene đó mã hóa
ü Đối với những gene hoặc con đường trao đổi chất mà số lượng enzyme chức năng đóng vai trò chủ chốt thì đột biến CNV có thể gây nên những biến đổi về tính mẫn
ü Gần đây, số lượng bản sao khác nhau của gene
CCL3L1 cũng cho thấy làm tăng khả năng kháng lại sự xâm nhiễm của HIV