Học Sửa Laptop Ở Đâu Tốt Nhất Trong hơn một thập kỉ, các trình tự gen đã được hơn các máy tính cần thiết để hiểu được kết quả đầu ra của chúng. Tìm kiếm chuỗi DNA trong các cơ sở dữ liệu gen hiện có đã mất hàng giờ, và vấn đề có thể sẽ trở nên tồi tệ hơn. Gần đây, nhóm nghiên cứu của Bonnie Berger thuộc Phòng Khoa học Máy tính và Khoa học Trí tuệ Nhân tạo (CSAIL) của MIT đang nghiên cứu các kỹ thuật để làm cho dữ liệu sinh học và hóa học dễ phân tích hơn bằng cách nén nó. Trong số ra mới nhất của tạp chí Cell Systems , Berger và các đồng nghiệp trình bày một phân tích lý thuyết cho thấy lý do tại sao các chương trình nén trước đây của họ đã thành công đến vậy. Chúng xác định các thuộc tính của tập dữ liệu làm cho chúng có khả năng nén và trình bày một thuật toán để xác định liệu một tập dữ liệu nhất định có các thuộc tính đó hay không. Họ cũng chỉ ra rằng một số cơ sở dữ liệu hiện có của các hợp chất hóa học và các phân tử sinh học thực sự thể hiện chúng. Với các phép đo cho các thuộc tính này, các nhà nghiên cứu cũng có thể tính toán những cải tiến về hiệu suất tìm kiếm mà kỹ thuật nén của chúng có khả năng. Đối với các bộ dữ liệu mà họ phân tích, những hiệu quả này có quy mô phụ, có nghĩa là bộ dữ liệu càng lớn thì việc tìm kiếm sẽ hiệu quả hơn. Berger, giáo sư về toán học ứng dụng tại MIT, nói: "Bài báo này cung cấp một khuôn khổ để chúng ta có thể áp dụng các thuật toán nén vào dữ liệu sinh học quy mô lớn". "Chúng tôi cũng có bằng chứng về hiệu quả của chúng tôi." Chìa khóa cho kế hoạch nén của các nhà nghiên cứu là sự tiến hóa là keo kiệt với thiết kế tốt. Có xu hướng có rất nhiều sự thừa trong bộ gen của liên quan chặt chẽ - hoặc thậm chí xa liên quan đến sinh vật. Điều đó có nghĩa là trong tất cả các trình tự có thể của bốn chữ cái DNA - A, T, C, và G - chỉ có một tập con nhỏ được đại diện bởi bộ gen của các sinh vật thực. Hơn nữa, trong không gian của các bộ gen có thể, những sinh vật thực sự không phân bố ngẫu nhiên. Thay vào đó, họ tìm ra các mô hình liên tục, đại diện cho tốc độ tương đối chậm ở đó các loài khác nhau. Chim lông Học Sửa Máy in Tại Hà Nội Để làm cho việc tìm kiếm hiệu quả hơn, các thuật toán nén của Berger nhóm các trình tự gen tương tự nhau - những chuỗi này phân tách chỉ bằng một vài chữ cái DNA - sau đó chọn một dãy đại diện cho cụm. Một tìm kiếm chỉ có thể tập trung vào những nhóm có khả năng nhất; hầu hết các dữ liệu không bao giờ phải được kiểm tra. Nếu dữ liệu về hệ gen được hình dung là theo dõi một đường đi liên tục thông qua một khoảng không lớn hơn các khả năng, sau đó các cụm có thể được hình dung như các hình cầu được chồng lên dữ liệu. Các điểm dữ liệu thuộc một lĩnh vực duy nhất có liên quan chặt chẽ. Berger và đồng nghiệp của cô, Noah Daniels, một postdoc trong nhóm của cô, và William Yu, một sinh viên cao học về toán học ứng dụng, và David Danko, một sinh viên đại học về sinh học tính toán - cho thấy các bộ dữ liệu thích hợp với các kỹ thuật tìm kiếm nén của họ chúng đáp ứng hai tiêu chí. Đầu tiên chúng được gọi là entropy metric. Điều này có nghĩa là dữ liệu chỉ sống một phần nhỏ trong không gian rộng lớn của các khả năng. Thứ hai là kích thước fractal thấp. Điều đó có nghĩa là mật độ của các điểm dữ liệu không thay đổi nhiều khi bạn di chuyển qua dữ liệu. Nếu tìm kiếm của bạn yêu cầu bạn khám phá ba hình cầu thay vì một, chỉ cần ba lần - không phải là 10 lần hoặc 100 lần. Trong bài báo của họ, các nhà nghiên cứu MIT phân tích ba bộ dữ liệu. Hai mô tả protein - một theo các trình tự amino acid của chúng, và thứ ba theo dạng của chúng - và thứ ba mô tả các phân tử hữu cơ. Trong một bài báo riêng, hiện đang được đệ trình, các nhà nghiên cứu áp dụng các loại phân tích tương tự cho các đoạn DNA dài từ 32 đến 63 chữ cái. Mũi tên của thời gian Hiệu quả của thuật toán tìm kiếm của họ được phân loại theo cấp dưới, chứ không phải với số điểm dữ liệu, nhưng với entropy chỉ số của tập dữ liệu, đó là một thước đo chính thức về sự liên tục của dữ liệu và sự thưa thớt của chúng, so với không gian của các khả năng. Bởi vì sự tiến hóa là bảo thủ, nên entropy số liệu gen sẽ tăng lên khi các bộ gen mới được sắp xếp. Nghĩa là, việc bổ sung các bộ gen mới sẽ không có khả năng thêm các nhánh mới vào mô hình theo dõi trong không gian của các khả năng; thay vào đó, nó sẽ lấp đầy khoảng trống trong mô hình hiện tại, tăng entropy metric. Nhiều bộ dữ liệu lớn khác, tuy nhiên, có thể chứng minh là bảo thủ trong cùng một cách. Ví dụ, phạm vi hành vi do người sử dụng Web thể hiện có thể, liên quan đến toàn bộ không gian khả năng, bị hạn chế bởi sinh học, bởi lịch sử văn hoá, hoặc cả hai. Do đó các kỹ thuật nén của các nhà nghiên cứu MIT có thể áp dụng được cho một loạt các dữ liệu bên ngoài sinh học. Lior Pachter, giáo sư tại Đại học California tại Berkeley, cho biết cấu trúc địa phương của dữ liệu về hệ gen có thể được khai thác để tăng tốc độ kết hợp bằng cách áp dụng một chiến lược đơn giản về khái niệm, có các cuộc hẹn giữa các phòng ban toán học, phân tử và sinh học tế bào, và kỹ thuật điện và khoa học máy tính. "Trong các nghiên cứu thực nghiệm, chúng thể hiện thông qua một số ví dụ mà chiến lược của họ hoạt động. Hơn nữa, họ cho thấy ngay cả một cách tiếp cận ngây thơ và đơn giản đối với vấn đề khó nhất trong cách tiếp cận - tìm kiếm các cụm - hoạt động tốt. " Pachter nói thêm: "Theo quan điểm của tôi, một ý nghĩa thú vị của công việc có thể được khám phá trong các bài báo trong tương lai là việc sử dụng các lớp phủ mà chúng tạo ra để nghiên cứu cấu trúc vốn có của dữ liệu" omics "cẩn thận hơn. "Điều này có thể có các ứng dụng không chỉ để tìm kiếm mà còn để phân tích dữ liệu thăm dò và suy luận thống kê." Học Sửa Máy Tính Cơ Bản