Układ Fermi – oznaczony symbolem GF100 – składa się z 3 miliardów tranzystorów i ma być produkowany w 40-nanometrowym procesie technologicznym. Tak jak Radeon 5000, również GF100 został przygotowany z myślą o obsłudze gier wykorzystujących najnowsze biblioteki graficzne DirectX 11. Dzięki nowym funkcjom tych bibliotek obrazy i obiekty w grach mogą zyskać mnóstwo dodatkowych szczegółów. Fermi jest kompatybilny z bibliotekami OpenGL 3.x i OpenCL 1.x. Obsługuje ponadto technologię PhysX (ATI Radeon tego nie zapewnia), która ma zadbać o to, by obiekty w grach reagowały tak, jak w świecie rzeczywistym.
Dla twórców gier ważne jest również to, że kość GF100 można programować w zwykłym języku programowania C++. Dzięki temu tworzenie gier powinno być łatwiejsze i szybsze niż w wypadku korzystania ze standardowych technik programowania układów graficznych. Dodatkowo układ będzie mógł np. w środowisku Windows 7 wspomagać swoją mocą obliczeniową zadania powierzane do tej pory tylko procesorowi (np. symulacje giełdowe, obliczenia inżynierskie) – podziałem zadań między procesor graficzny i centralny zajmą się wówczas sterowniki.
Zgrupowane procesory strumieniowe
Układ GF100 wykorzystuje 512 procesorów strumieniowych. To one odpowiadają za wszystkie kalkulacje związane z generowaniem grafiki oraz obliczenia fizyki (wzajemne oddziaływanie obiektów, np. deformacja po zderzeniu czy efekty specjalne, jak płonący ogień, falująca woda) w grach wykorzystujących technologię PhysX. Procesory pogrupowano w większe bloki liczące po 32 jednostki, by łatwiej było przydzielać procesory do poszczególnych zadań. Tych bloków jest 16. Te z kolei połączono w 4 klastry (moduły GPC) liczące po cztery bloki.
Dla użytkownika ważne jest to, że architekturę GF100 można skalować z dokładnością do takiego klastra, gdyż zawiera on wszystkie elementy niezbędne do generowania grafiki. Obecnie najwydajniejsze karty z rodziny GF100 mają cztery klastry. Producent zapowiada, że dostępne będą również wolniejsze, ale zarazem tańsze karty z trzema, dwoma oraz jednym klastrem.
Pamięć podręczna jak w procesorach
Ciekawostką dotyczącą architektury układów Fermi jest to, że pojawiła się w nich współdzielona, dwupoziomowa pamięć cache – tak jak w procesorach. Dzięki temu obliczenia mogą być wykonywane szybciej, gdyż nie potrzeba co chwilę odwoływać się do zewnętrznej, wolniejszej graficznej pamięci RAM. Również znacznie szybsze i wydajniejsze jest przełączanie GPU między kalkulacjami związanymi z grafiką i obliczeniami fizycznymi PhysX. Chodzi o to, że po przełączeniu z jednego trybu pracy w drugi układ ma od razu do dyspozycji wszystkie związane z obliczeniami dane i nie musi sięgać po nie do wolnej pamięci RAM.
Współdzielona przez wszystkie klastry pamięć podręczna drugiego poziomu ma 768 KB. Obsługę graficznej pamięci DRAM GDDR5 (maks. 6 GB) zapewnia sześć 64-bitowych kontrolerów pamięci, możliwe jest więc jednoczesne przesyłanie 384 bitów danych między pamięcią a procesorem graficznym.